Spark 诞 生 于 美国 加 州 大 学 伯克利 分 校 AMP 实 验 室 。 随 着 大 数据 技术 在 互联 网 、 金 融 等 领域 的 突破 式 进展 ，Spark 在 近 些 年 得 到 更 为 广泛 的 应 用 。 这 是 一 个 核心 贡献 者 超过 一 半 为 华人 的 大 数据 平台 开 


源 项 目 ， 且 正 处 于 飞速 友 展 、 快 速成 熟 的 阶段 。 
Spark 提 供 更 为 高 效 的 计算 框架 以 及 更 为 丰富 的 功能 ， 因 此 在 大 数据 生产 应 用 领域 中 不 断 攻 


为 什么 写 这 本 书 


城 略 地 ， 势 如 破 竹 。 
与 企业 不 断 涌现 的 对 大 数据 技术 的 需求 相 比 ， 大 数据 人 才 还 存在 很 大 缺口 ， 对 大 数据 技术 充满 期 许 的 新 人 正在 源源 不 断 地 加 入 这 个 领域 。 在 小 象 学 院 的 教学 实践 过 程 中 ,我们 发 现 ， 一 本 能 完整 系统 地 


介绍 Spark 各 模块 原理 并 兼顾 使 用 实战 的 书 ， 对 于 初 入 大 数据 领域 的 技术 人 员 至 关 重 要 。 于 是 ,我 们 根据 日 常 积累 的 经 验 ， 著 成 本 书 。 
Spark 作 为 一 个 高 速 发 展 的 开源 项 目 ， 最 近 也 发 布 了 全 新 的 Spark 2.0 版 本 。 对 于 Spark 2.0 版 本 的 新 特性 ， 我 们 也 专门 给 予 描述 ， 以 期 将 最 前 沿 的 Spark 技 术 奉 献 给 读者 


本 书面 向 的 读者 
.Spark 初学 者 
.Spark 应 用 开发 人 员 
. Spatk 运 维 人 员 
大 数据 技术 爱好 者 
如 何 阅 读本 书 
本 书 共 分 8 章 : 
、 主 要 组 成 部 分 、 基 本 架构 ， 以 及 Spark 集 群 环境 搭建 和 Spark 开 发 环境 的 构建 方法 。 


第 1 章 介绍 了 Spark 大 数据 处 理 框架 的 基本 概念 
RDD 弹 性 分 布 式 数据 集 ， 以 典型 的 编程 范例 ， 讲 解 基于 RDD 的 算 子 操作 ， 
第 3 章 主要 讲述 了 Spark 的 工作 机 制 与 原理 ， 剖 析 了 Spark 的 提交 和 执行 时 的 具体 机 制 ， 重 点 强调 了 Spark 程 序 的 宏观 执行 过 程 。 此 外 ， 更 深入 地 齐 析 了 Spark 的 存储 及 IO、 通 信 机 制 、 容 错 机 制 和 





第 2 章 引入 Spark 编 程 中 的 核心 
Shuffle 机 制 。 
并 对 Spark 的 执行 主线 进行 详细 剖析 ， 从 代码 层面 详细 讲述 RDD 是 如 何 落 地 到 Worker 上 执行 的 。 同 时 ， 本 章 从 另 一 个 角度 分 析 了 Client、Master 与 Worker 之 


第 4 章 对 Spark 的 代码 布局 做 了 宏观 
间 的 交互 过 程 ， 深 入 讲述 了 Spark 的 两 个 重要 功能 点 及 Spark Shuffle 与 Spark 存 储 机 制 |。 
第 5 章 介 绍 了 YARN 的 基本 原理 及 基于 YARN 的 Spark 程 序 提交 ， 并 结合 从 程序 提交 到 落地 执行 的 过 程 ， 详 细 介 绍 了 各 个 阶段 的 资源 管理 和 调度 职能 。 在 本 章 的 后 半 部 分 ， 主 要 从 资源 配置 的 角度 对 YARN 


介绍， 


及 基于 YARN 的 Spark 做 了 较为 详细 的 介绍 。 


基本 概念 及 操作 。 最 后 针对 机 器 学 习 的 流行 趋势 ， 重 点 介绍 了 Spark MLlib 的 架构 及 编程 应 用 ， 以 及 机 器 学 习 的 基本 概念 和 基本 算法 。 


第 7 章 首先 详细 叙述 了 spark 调 优 的 几 个 重要 方面 ， 接 着 给 出 了 工业 实践 中 常见 的 一 些 问题 ， 以 及 解决 问题 的 常用 策略 ， 最 后 启发 读者 在 此 基础 上 进一步 思考 和 探索 。 


第 6 章 一 一 讲解 了 BDAS 中 的 主要 模块 。 由 Spark SQL 开始 ， 介 绍 了 Spark SQL 及 其 编程 模型 和 DataFrame。 接 着 深入 讲解 Spark 生 态 中 用 于 流 式 计算 的 模块 Spark Streaming。 之 后 ， 讲 解 了 Spark R 的 
第 8 章 描述 了 Spark 2.0.0 发 布 之 后 ，Spark Core、Spark SQL、MLlib、Spark Streaming、Spark R 等 模块 API 的 变化 以 及 新 增 的 功能 特性 等 。 对 于 变化 较 大 的 Spark SQL， 书 中 用 实际 的 代码 样 例 更 详 


了 解 Spark 最 基本 的 原理 ， 阅 读 第 1 ~ 3 章 即 


只 相 


AN 


细 地 说 明和 讲解 了 SparkSession、 结 构 化 Streaming 等 新 特性 。 
对 于 Spark 的 初学 者 或 希望 从 零 开 始 详细 了 解 Spark 技 术 的 读者 ， 请 从 第 1 章 开始 通读 全 书 ; 对 于 有 一 定 Spark 基 础 的 研究 者 ， 可 从 第 4 章 开始 阅读 ; 如 果 


可 。 
”， 把 您 的 意见 或 者 建议 


资源 和 勘误 
本 书 大 量 资 源 来 源 于 小 象 学 院 专 家 团队 在 大 数据 项 目 开 发 以 及 Spark 教 学 课程 中 的 经 验 积累 。 本 书 内 容 的 撰写 也 参考 了 大 量 官方 文档 (http://spark.apache.org/) 。 
由 于 Spark 技 术 正在 飞速 发 展 ， 加 之 笔者 水 平 有 限 ， 书 中 难免 存在 廖 误 ， 也 可 能 存在 若干 技术 细节 描述 不 详尽 之 处 ， 晨 请 读者 批评 指正 。 欢 迎 大 家 关注 微 信服 务 号 “小 象 学 院 


反馈 给 我 们 。 


致谢 
首先 应 该 感谢 Apache spark 的 开源 贡献 者 们 ，Spark 是 当今 大 数据 领域 伟大 的 开源 项 目 之 一 ， 没 有 这 一 开源 项 目 ， 便 没有 本 书 。 
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第 1 草 ”Spark 染 构 与 集群 环境 


本 章 首 先 介绍 Spark 大 数据 处 理 框架 的 基本 概念 ， 然 后 介绍 Spark 生 态 系统 的 主要 组 成 部 分 ， 包 括 Spark SQL、Spark Streaming、MLlib 和 GraphX， 接 着 简要 描述 了 Spark 的 架构 ， 便 于 读者 认识 和 把 


握 ， 最 后 摘 述 了 spark 集 群 环境 搭建 及 Spark 开 妈 环 境 的 构建 方法 。 


1.1 _ Spark 概述 与 架构 


随 着 互联 网 规模 的 爆发 式 增长 ， 不 断 增加 的 数据 量 要 求 应 用 程序 能 够 延伸 到 更 大 的 集群 中 去 计算 。 与 单 台 机 器 计算 不 同 ， 集 群 计算 引发 了 几 个 关键 问题 ， 如 集群 计算 资源 的 共享 、 单 点 宕 机 、 节 点 执行 
缓慢 及 程序 的 并 行 化 。 针 对 这 几 个 集群 环境 的 问题 ， 许 多 大 数据 处 理 框 架 应 运 而 生 。 比 如 Google 的 MapReduce， 它 提出 了 简单 、 通 用 并 具有 自动 容错 功能 的 批 处 理 计 算 模型 。 但 是 MapReduce 对 于 某 些 
类 型 的 计算 并 不 适合 ， 比 如 交互 式 和 流 式 计 算 。 基 于 这 种 类 型 需求 的 不 一 致 性 ， 大 量 不 同 于 MapReduce 的 专门 数据 处 理 模型 证 生 了 ， 如 GraphLab、Impala、Sstorm 等 。 大 量 数据 模型 的 产生 ， 引 发 的 后 果 
是 对 于 大 数据 处 理 而 言 ， 针 对 不 同类 型 的 计算 ， 通 常 需要 一 系列 不 同 的 处 理 框架 才能 完成 。 这 些 不 同 的 处 理 框架 由 于 天 生 的 差异 又 带 来 了 一 系列 问题 : 重复 计算 、 使 用 范围 的 局 限 性 、 资 源 分 配 、 统 一 管 


理 ， 等 等 。 


1.1.1 _ Spark 概述 
为 了 解决 上 述 MapReduce 及 各 种 处 理 框架 所 带 来 的 问题 ， 加 州 大 学 伯克利 分 校 推 出 了 Spark 统 一 大 数据 处 理 框架 。Spark 是 一 种 与 Hadoop MapReduce 类 似 的 开源 集群 大 数据 计算 分 析 框 架 。Spark 基 
于 内 存 计 算 ， 整合 了 内 存 计 算 的 单元 ， 所 以 相对 于 hadoop 的 集群 处 理 方法 ，Spark 在 性 能 方面 更 具 优 势 。Spark 启 用 了 弹性 内 存 分 布 式 数据 集 ， 除 了 能 够 提供 交互 式 查询 外 ， 还 可 以 优化 迭代 工作 负载 。 


从 另 一 角度 来 看 ，Spark 可 以 看 作 MapReduce 的 一 种 扩展 。MapReduce 之 所 以 不 擅长 迭代 式 、 交 互 式 和 流 式 的 计算 工作 ， 主 要 因为 它 缺乏 在 计算 的 各 个 阶段 进行 有 效 的 资源 共享 ， 针 对 这 一 
点 ，Spark 创 造 性 地 引入 了 RDD (弹性 分 布 式 数 据 集 ) 来 解决 这 个 问题 。RDD 的 重要 特性 之 一 就 是 资源 共享 。 


Spark 基 于 内 存 计算 ,提高 了 大 数据 处 理 的 实时 性 ， 同 时 兼 具 高 容错 性 和 可 伸缩 性 ， 更 重要 的 是 ，Spark 可 以 部 署 在 大 量 廉价 的 硬件 之 上 ， 形 成 集群 。 

提 到 Spark 的 优势 就 不 得 不 提 到 大 家 熟知 的 Hadoop。 事 实 上 ，Hadoop 主 要 解决 了 两 件 事情 : 

1) 数据 的 可 靠 存储 。 

2) 数据 的 分 析 处 理 。 

相应 地 ，Hadoop 也 主要 包括 两 个 核心 部 分 : 

1) 分 布 式 文件 系统 (Hadoop Distributed File System，HDFS) : 在 集群 上 提供 高 可 靠 的 文件 存储 ， 通 过 将 文件 块 保存 多 个 副本 的 办 法 解决 服务 器 或 硬盘 故障 的 问题 。 


2) 计算 框架 MapReduce: 通过 简单 的 Mapper 和 Reducer 的 抽象 提供 一 个 编程 模型 ， 可 以 在 一 个 由 几 十 台 ， 甚 至 上 百 台 机 器 组 成 的 不 可 靠 集群 上 并 发 地 、 分 布 式 地 处 理 大 量 的 数据 集 ， 而 把 并 发 、 分 
布 式 (如 机 器 间 通 信 ) 和 故障 恢复 等 计算 细节 隐藏 起 来 。 


Spark 是 MapReduce 的 一 种 更 优 的 替代 方案 ， 可 以 兼容 HDFS 等 分 布 式 存 储 层 ， 也 可 以 兼容 现 有 的 Hadoop 生 态 系统 ， 同 时 弥补 MapReduce 的 不 足 。 
与 Hadoop MapReduce 相 比 ，Spark 的 优势 如 下 : 


. 中 间 结 果 : 基于 MapReduce 的 计算 引擎 通常 将 中 间 结 果 输出 到 磁盘 上 ， 以 达到 存储 和 容错 的 目的 。 由 于 任务 管道 承接 的 缘故 ， 一 切 查询 操作 都 会 产生 很 多 串联 的 Stage， 这 些 Stage 输 出 的 中 间 结果 存储 
于 HDRS。 而 Spatk 将 执行 操作 抽象 为 通用 的 有 向 无 环 图 (DAG) ， 可 以 将 多 个 Stage 的 任务 串联 或 者 并 行 执行 ， 而 无 须 将 Stage 中 间 结 果 输 出 到 HDFS 中 。 


` 执行 策略 : MapReduce 在 数据 Shuffle 之 前 ， 需 要 花费 大 量 时间 来 排序 ， 而 Spatk 不 需要 对 所 有 情景 都 进行 排序 。 由 于 采用 了 DAG 的 执行 计划 ， 每 一 次 输出 的 中 间 结 果 都 可 以 缓存 在 内 存 中 。 


* 任务 调度 的 开销 : MapReduce 系 统 是 为 了 处 理 长 达 数 小 时 的 批量 作业 而 设计 的 ， 在 某 些 极端 情况 下 ， 提 交 任 务 的 延迟 非常 高 。 而 Spatk 采 用 了 事件 驱动 的 类 库 AKKA 来 启动 任务 ， 通 过 线程 池 复 用 线程 


来 避免 线程 启动 及 切换 产生 的 开销 。 
. 更 好 的 容错 性 : RDD 之 间 维 护 了 血缘 关系 (lineage) ,一旦 茶 个 RDD 失 败 了 ， 就 能 通过 父 RDD 自 动 重建 ,保证 了 容错 性 。 
` 高 速 ; 基于 内 存 的 Spark 计 算 速 度 大 约 是 基于 磁盘 的 Hadoop MapReduce 的 100 倍 。 
. 易 用 : 相同 的 应 用 程序 代码 量 一 般 比 Hadoop MapbReduce 少 50% 一 80%。 


. 提供 了 丰富 的 API: 与 此 同时 ，Spatk 支 持 多 语言 编程 ， 如 Scala、Python 及 Java， 便 于 开发 者 在 自己 熟悉 的 环境 下 工作 。Spatk 自 带 了 80 多 个 算 子 ， 同 时 允许 在 Spark Shell 环 境 下 进行 交互 式 计算 ， 开 发 者 
可 以 像 书写 单机 程序 一 样 开 发 分 布 式 程序 ， 轻 松 利 用 Spatk 搭 建 大 数据 内 存 计 算 平台 ， 并 利用 内 存 计 算 特性 ， 实 时 处 理 海量 数据 。 


1.1.2 ”Spark 生态 


Spark 大 数据 计算 平台 包含 许多 子 模块 ， 构 成 了 整个 Spark 的 生态 系统 ， 其 中 Spark 为 核心 。 
伯克利 将 整个 Spark 的 生态 系统 称 为 伯克利 数据 分 析 栈 (BDAS) ， 其 结构 如 图 1-1 所 示 。 
以 下 简要 介绍 BDAS 的 各 个 组 成 部 分 。 

1.Spark Core 


Spark Core 是 整个 BDAS 的 核心 组 件 ， 是 一 种 大 数据 分 布 式 处 理 框架 ,不 仪 实 现 了 MapReduce 的 算 子 map 函 数 和 reduce 函 数 及 计算 模型 ， 还 提供 如 filter、join、groupByKey 等 更 丰富 的 算 子 。Spark 
将 分 布 式 数据 抽象 为 弹性 分 布 式 数 据 集 (RDD) ， 实 现 了 应 用 任务 调度 、RPC、 序 列 化 和 压缩 ， 并 为 运行 在 其 上 的 上 层 组 件 提供 API。 其 底层 采用 scala 函 数 式 语言 书写 而 成 ， 并 且 深 度 借鉴 Scala 阔 数 式 的 编 
程 思想 ， 提 供与 Scala 类 似 的 编程 接口 。 


BlinkDB 


(误差 范围 、 啊 应 时 间 ) 
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图 1-1 伯克利 数据 分 析 栈 的 结构 
2.Mesos 
Mesos 是 Apache 下 的 开源 分 布 式 资源 管理 框架 ， 被 称 为 分 布 式 系统 的 内 核 ， 提 供 了 类 似 YARN 的 功能 ， 实 现 了 高 效 的 资源 任务 调度 。 
3.Spark Streaming 
Spark streaming 是 一 种 构建 在 Spark 上 的 实时 计算 框架 ， 它 扩展 了 Spark 处 理 大 规模 流 式 数据 的 能 力 。 其 吞吐 量 能 够 超越 现 有 主流 流 处 理 框架 storm ， 并 提供 丰富 的 API 用 于 流 数 据 计 算 。 


4.MLlib 


MLIib 是 Spark 对 常用 的 机 器 学 习 算 法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 器 。MLlib 目 前 支持 4 种 常见 的 机 器 学 习 问 题 : 二 元 分 类 、 回 归 、 聚 类 以 及 协同 过 滤 ， 还 包括 一 个 底层 的 梯度 下 降 优化 基 
础 算法 。 


5.GraphX 


GraphX 是 Spark 中 用 于 图 和 图 并 行 计算 的 APl， 可 以 认为 是 GraphLab 和 Pregel 在 Spark (Scala) 上 的 重 写 及 优化 ， 与 其 他 分 布 式 图 计算 框架 相 比 ，GraphX 最 大 的 贡献 是 ， 在 Spark 上 提供 一 栈 式 数据 
解决 方案 ， 可 以 方便 、 高 效 地 完成 图 计算 的 一 整套 流水 作业 。 


6.Spark SQL 


Shark 是 构建 在 Spark 和 Hive 基 础 之 上 的 数据 仓库 。 它 提供 了 能 够 查询 Hive 中 所 存储 数据 的 一 套 SQL 接 口 ， 兼 容 现 有 的 Hive QL 语 法 。 熟 悉 Hive QL 或 者 SQL 的 用 户 可 以 基于 Shark 进 行 快速 的 Ad-Hoc、 
Reporting 等 类 型 的 SQL 查询 。 由 于 其 底层 计算 采用 了 Spark， 性 能 比 Mapreduce 的 Hive 普 遍 快 2 倍 以 上 ， 当 数据 全 部 存储 在 内 存 时 ， 要 快 10 倍 以 上 。2014 年 7 月 1 日 ，Spark 社 区 推出 了 Spark SQL， 重 新 实 
现 了 SQL 解析 等 原来 Hive 完 成 的 工作 ，Spark SQL 在 功能 上 全 履 盖 了 原 有 的 Shark， 且 具备 更 优秀 的 性 能 。 


7.Alluxio 


Alluxio (原名 Tachyon) 是 一 个 分 布 式 内 存 文 件 系 统 ， 可 以 理解 为 内 存 中 的 HDFS。 为 了 提供 更 高 的 性 能 ， 将 数据 存储 剥离 Java Heap。 用 户 可 以 基于 Alluxio 实 现 RDD 或 者 文件 的 跨 应 用 共享 ， 并 提供 
高 容错 机 制 ， 保 证 数据 的 可 靠 性 。 


8.BlinkDB 


BlinkDB 是 一 个 用 于 在 海量 数据 上 进行 交互 式 SQL 的 近似 查询 引擎 。 它 允许 用 户 在 查询 准确 性 和 查询 响应 时 间 之 间 做 出 权衡 ， 执 行 相似 查询 。 


1.1.3” ”Spark 架构 


传统 的 单机 系统 ， 昌 然 可 以 多 核 共 享 内 存 、 磁 盘 等 资源 ， 但 是 当 计算 与 存储 能 力 无 法 满足 大 规模 数据 处 理 的 需要 时 ， 面 对 自身 CPU 与 存储 无 法 扩展 的 先天 限制 ， 单 机 系统 就 力不从心 了 。 
1. 分 布 式 系统 的 架构 


所 谓 的 分 布 式 系 统 ， 即 为 在 网 络 互 连 的 多 个 计算 单元 执行 任务 的 软 硬 件 系统 ， 一 般 包 括 分 布 式 操作 系统 、 分 布 式 数据 库 系统 、 分 布 式 应 用 程序 等 。 本 书 介绍 的 Spark 分 布 式 计算 框架 ， 可 以 看 作 分 布 式 
软件 系统 的 组 成 部 分 ， 基 于 Spark， 开 发 者 可 以 编写 分 布 式 计算 程序 。 


直观 来 看 ， 大 规模 分 布 式 系 统 由 许多 计算 单元 构成 ， 每 个 计算 单元 之 间 松 看 合 。 同 时 ， 每 个 计算 单元 都 包含 自己 的 CPU、 内 存 、 总 线 及 硬盘 等 私有 计算 资源 。 这 种 分 布 式 结构 的 最 大 特点 在 于 不 共享 资 
源 ， 与 此 同时 ， 计 算 节点 可 以 无 限制 扩展 ， 计 算 能 力 和 存储 能 力也 因而 得 到 巨大 增长 。 但 是 由 于 分 布 式 架构 在 资源 共享 方面 的 先天 缺陷 ， 开 发 者 在 书写 和 优化 程序 时 应 引起 注意 。 分 布 式 系统 架构 如 图 1-2 所 





图 1-2 分布 式 系统 架构 图 


为 了 减少 网 络 VO 开 销 ， 分 布 式 计算 的 一 个 核心 原则 是 数据 应 该 尽量 做 到 本 地 计算 。 在 计算 过 程 中 ， 每 个 计算 单元 之 间 需 要 传输 信息 ， 因 此 在 信息 传输 较 少时 ， 分 布 式 系统 可 以 利用 资源 无 限 扩展 的 优势 
达到 高 效率 ， 这 也 是 分 布 式 系统 的 优势 。 目 前 分 布 式 系统 在 数据 挖掘 和 决策 支持 等 方面 有 着 广泛 的 应 用 。 

Spark 正 是 基于 这 种 分 布 式 并 行 架构 而 产生 ， 也 可 以 利用 分 布 式 架 构 的 优势 ， 根 据 需 要 ， 对 计算 能 力 和 存储 能 力 进行 扩展 ， 以 应 对 处 理 海量 数据 带 来 的 挑战 。 同 时 ，Spark 的 快速 及 容错 等 特性 ， 让 数据 
处 理 分 析 显 得 游 力 有 余 。 

2.Spark 架 构 


Spark 架 构 采 用 了 分 布 式 计 算 中 的 Master-Slave 模 型 。 集 群 中 运行 Master 进 程 的 节点 称 为 Master， 同 样 ， 集 群 中 含有 Worker 进 程 的 节点 为 Slave。 Master 负 责 控 制 整个 集群 的 运行 ;Worker 节 点 相当 
于 分 布 式 系统 中 的 计算 节点 ， 它 接收 Master 节 点 指令 并 返回 计算 进程 到 Master;，Executor 负 责任 务 的 执行 ，Client 是 用 户 提 交 应 用 的 客户 端 ，Driver 负 责 协调 提交 后 的 分 布 式 应 用 。 具 体 架构 如 图 1-3 所 
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图 1-3” ”Spa 水 架构 


在 Spark 应 用 的 执行 过 程 中 ，Driver 和 Worker 是 相互 对 应 的 。Driver 是 应 用 逻辑 执行 的 起 点 ， 负 责 Task 任 务 的 分 友和 调度 ; Worker 负 责 管理 计算 节点 并 创建 Executor 来 并 行 处 理 Task 任 务 。Task 执 行 
过 程 中 所 需 的 文件 和 包 由 Driver 序 列 化 后 传输 给 对 应 的 Worker 节 点 ，Executor 对 相应 分 区 的 任务 进行 处 理 。 


下 面 介绍 Spark 架 构 中 的 组 件 。 
1) Client: 提交 应 用 的 客户 端 。 
2) Driver: 执行 Application 中 的 main 函 数 并 创建 SparkContext。 


3) ClusterManager: 在 YARN 模 式 中 为 资源 管理 器 。 在 Standalone 模 式 中 为 Master ( 主 节点 ) ， 控 制 整个 集群 。 


5) Executor: 在 计算 节点 上 执行 任务 的 组 件 。 

6) SparkContext: 应 用 的 上 下 文 ， 控 制 应 用 的 生命 周期 。 

7) RDD: 弹性 分 布 式 数据 集 ，Spark 的 基本 计算 单元 ， 一 组 RDD 可 形成 有 向 无 环 图 。 

8) DAG Scheduler: 根据 应 用 构建 基于 Stage 的 DAG， 并 将 Stage 提 交 给 Task Scheduler。 
9) Task Scheduler: 将 Task 分 发 给 Executor 执 行 。 

10) SparkEnv: 线程 级 别 的 上 下 文 ， 存 储 运 行 时 重要 组 件 的 应 用 ， 具 体 如 下 : 
Q@SparkConf: 存储 配置 信息 。 

@BroadcastManager: 负责 广播 变量 的 控制 及 元 信息 的 存储 。 

G@BlockManager: 负责 Block 的 管理 、 创 建 和 查找 。 

@MetricsSystem : 监控 运行 时 的 性 能 指标 。 

G@MapOutputTracker: 负责 shuffle 元 信息 的 存储 。 

Spark 架 构 揭示 了 Spark 的 具体 流程 如 下 : 

1) 用 户 在 Client 提 交 了 应 用 。 

2) Master 找 到 Worker， 并 启动 Driver。 

3) Driver 向 资源 管理 器 (YARN 模 式 ) 或 者 Master (Standalone 模 式 ) 申请 资源 ， 并 将 应 用 转化 为 RDD Graph。 
4) DAG Scheduler 将 RDD Graph 转化 为 Stage 的 有 向 无 环 图 提交 给 Task Scheduler。 

5) Task Scheduler 提 交 任 务 给 Executor 执 行 。 

3.Spark 运 行 罗 辑 


下 面 举 例 说 明 Spark 的 运行 逻辑 ， 如 图 1-4 所 示 ， 在 Action 算 子 被 触发 之 后 ， 所 有 累积 的 算 子 会 形成 一 个 有 向 无 环 图 DAG。Spark 会 根据 RDD 之 间 不 同 的 依赖 关系 形成 Stage， 每 个 Stage 都 包含 一 系列 
函数 执行 流水 线 。 图 1-4 中 和 、B、C、D、E、F 为 不 同 的 RDD，RDD 内 的 方 框 为 RDD 的 分 区 。 





textFile 
| i 


HDFS 


quenceF lle 





Stage 2 


图 1-4 ” Spark 执行 RDD Graph 


1-4 中 的 运行 逻辑 如 下 : 


1) 数据 从 HDFS 输 入 Spark。 

2) RDD A、RDD C 经 过 flatMap 与 Map 操 作 后 ， 分 别 转换 为 RDD B 和 RDD D。 
3) RDD D 经 过 reduceByKey 操 作 转 换 为 RDD E。 

4) RDD B 与 RDD E 进 行 join 操 作 转 换 为 RDD F。 


5) RDD F 通 过 函数 saveAsSequenceFile 输 出 保存 到 HDFS 中 。 


1.2 ”在 Linux 和 集群 上 部 团 Spark 


Spark 安 装 部 署 比较 简单 ， 用 户 可 以 登录 其 官方 网 站 (http://spark.apache.org/downloads.html) 下 载 Spark 最 新 版 本 或 历史 版 本 ， 也 可 以 查阅 Spark 相 关 文 档 作为 参考 。 本 书 开始 写作 时 ，Spark 网 
刚 发 布 1.5.0 版 ， 因 此 本 章 所 述 的 环境 搭建 均 以 Spark 1.5.0 版 为 例 。 


spark 使 用 了 Hadoop 的 HDFS 作 为 持久 化 存储 层 ， 因 此 安装 Spark 时 ， 应 先 安 装 与 Spark 版 本 相 兼 容 的 Hadoop。 
本 节 以 阿里 云 Linux 主 机 为 例 ， 描 述 集群 环境 及 Spark 开 发 环境 的 搭建 过 程 。 


Spark 计 算 框架 以 Scala 语 言 开 发 ， 因 此 部 署 Spark 首 先 需 要 安装 Scala 及 JDK (Spark1.5.0 需 要 JDK1.7.0 或 更 高 版 本 ) 。 另 外 ，Spark 计 算 框 架 基 于 持久 化 层 ， 如 Hadoop HDFS， 因 此 本 章 也 会 简 述 
Hadoop 的 安装 配置 。 


1.2.1 安装 OpenJDK 


Spark1.5.0 要 求 OpenJDK1.7.0 或 更 高 版 本 。 以 本 机 Linux X86 机 器 为 例 ，OpenJDK 的 安装 步骤 如 下 所 示 : 
1) 查询 服务 器 上 可 用 的 JDK 版 本 。 在 终端 输入 如 下 命令 : 

yum list "xJDKxn 

yum 会 列 出 服务 器 上 的 JDK 版 本 。 

2) 安装 JDK。 在 终端 输入 如 下 命令 : 


yum install java-1.7.0-openjdk-devel .x86 
cd /usr/l1ib/jvm 
ln -s JjJava-l1.7.0-openjdk.x86 java-1.7 


3) JDK 环 境 配 置 。 


@ 用 编辑 器 打开 /etc/profile 文 件 ， 加 入 如 下 内 容 : 





export JAVA HOME=/usr/1ib/jvm/java-1.7 
export PATH=$PATH: $JAVA HOME/bin:$JAVA HO E/jre/bin 




















关闭 并 保存 profile 文 件 。 


输入 命令 source/etc/profile 让 配置 生效 。 


1.2.2 ” 安 阁 Scala 


登录 Scala 官 网 (http://www.scala-lang.org/download/) 下 载 最 新 版 本 : scala-2.11.7.tgz 


1) 安装 。 





tar ZXVE scala-2.11.7.tgz -C /usr/local 
cd /usr/local 
ln -s scala-2.11.7 scala 








2) 配置 : 打开 /etc/profile， 加 入 如 下 语句 : 


export SCALA HOME=/usr/local/scala 
export PATH=SPATH:SSCALA HOME/bin 























1.2.3 配置 SSH 免 密码 登录 

在 分 布 式 系统 中 ， 如 Hadoop 与 Spark， 通 常 使 用 SSH (安全 协议 ，Secure Shell) 服务 来 启动 Slave 节 点 上 的 程序 ， 当 节点 数量 比较 大 时 ， 频 繁 地 输入 密码 进行 身份 认证 是 一 项 非常 艰难 的 体验 。 为 了 简 
化 这 个 问题 ， 可 以 使 用 ”公私 钥 ” 认 证 的 方式 来 达到 SSH 免 密码 登录 。 

首先 在 Master 节 点 上 创建 一 对 公私 钥 ( 公 钥 文件 : ~/.ssh/id_rsa.pub; 私 钥 文件 : ~/.ssh/id_rsa) ， 然 后 把 公 钥 拷贝 到 Worker 节 点 上 (~/.ssh/authorized_keys) 。 二 者 交互 步骤 如 下 : 


1) Master 通 过 SSH 连 接 Worker 时 ，Worker 生 成 一 个 随机 数 然后 用 公 钥 加 密 后 ， 发 回 给 Master。 


2) Master 收 到 加 密 数 后 ， 用 私 钥 解密 ， 并 将 解密 数 回 传 给 Worker。 

3) Worker 确 认 解 密 数 正确 之 后 ， 人 允许 Master 连 接 。 

如 果 配 置 好 SSH 免 密码 登录 之 后 ， 在 以 上 交互 中 就 无 须 用 户 输入 密码 了 。 下 面 介绍 安装 与 配置 过 程 。 

1) 安装 SSH: yum install ssh 

2) 生成 公私 钥 对 : ssh-keygen-t rsa 

一 直 按 回 车 键 ， 不 需要 输入 。 执 行 完 成 后 会 在 ~/.ssh 目 录 下 看 到 已 生成 id_rsa.pub 与 id_rsa 两 个 密 钥 文件 。 其 中 id_rsa.pub 为 公 钥 。 
3) 拷贝 公 钥 到 Worker 机 器 : scp~/.ssh/id_rsa.pub< 用 户 名 > @ <worker 机 器 ip>: ~/.ssh 


4) 在 Worker 节 点 上 ， 将 公 钥 文 件 重 命名 为 authorized_keys: mv id_rsa.pub auth-orized_keys。 类 似 地 ， 在 所 有 Worker 节 点 上 都 可 以 配置 SSH 免 密码 登录 ，。 


1.2.4 Hadoop 的 安装 配置 


登录 Hadoop 官 网 (http://hadoop.apache.org/releases.html) 下 载 Hadoop 2.6.0 安 装 包 hadoop-2.6.0.tar.gz。 然 后 解压 至 本 地 指定 目录 。 





tar ZXVE hadoop-2.6.0.tar.gz -C /usr/local 
ln -s hadoop-2.6.0 hadoop 


下 面 讲解 Hadoop 的 配置 。 


1) 打开 /etc/profile， 末 尾 加 入 : 


HADOOP INSTALIL=/usr/local/hadoop 
PATH=SPATH: SHADOOP INSTALL/bin 
PATH=$PATH: $HADOOP INSTALL/sbin 
HADOOP MAPRED HOME=$HADOOP INSTALL 
HADOOP COMMON HOME=$HADOOP INSTALL 
HADOOP HDFS HOME=$HADOOP INSTALL 
YARN HOME=SHADOOP INSTALL 





export 
export 
export 
export 
export 
export 
export 
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执行 _source/etc/profile_ 使 其 生效 ,然后 进入 Hadoop 配 置 目 录 : /usr/local/hadoop/etc/hadoop， 配 置 Hadoop。 


2) 配置 hadoop_env.sh。 


export JAVA HOME=/usr/1ib/jvm/java-1.7 





3) 配置 core-site.xml。 


<property> 
<name>fs .defaultFS</name> 
<value>hdfs://Master: 9000</value> 
</property> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>file:/root/bigdata/tmp</value> 
</property> 
<property> 
<name>io.file.buffer.size</name> 
<value>131702</value> 
</property> 















































4) 配置 yarn-site.xml。 


<property> 
<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce shuffle</value> 

</property> 

<property> 
<name>yarn.nodemanager .auxservices.mapreduce. shuffle.class</name> 
<value>org.apache.hadoop.mapred.ShuffleHandler</value> 

</property> 

<property> 
<name>yarn.resourcemanager .address</name> 
<value>Master:8032</value> 

</property> 

<property> 
<name>yarn.resourcemanager.scheduler.address</name> 
<value>Master:8030</value> 

</property> 

<property> 
<name>yarn.resourcemanager .resource-tracker.address</name> 
<value>Master:8031</value> 

</property> 

<property> 
<name>yarn.resourcemanager .admin.address</name> 
<value>Master:8033</value> 

</property> 

<property> 
<name>yarn.resourcemanager .webapp.address</name> 
<value>Master:8088</value> 

</property> 






























































5) 配置 mapred-site.xml。 


<property> 
<name>mapreduce. framework.name</name> 
<value>yarn</value> 

</property> 

<property> 
<name>mapreduce.jobhistory.address</name> 
<value>Master:10020</value> 

</property> 

<property> 
<name>mapreduce.jobhistory.webapp.address</name> 
<value>Master:19888</value> 














</property> 





6) 创建 namenode 和 datanode 目 录 ， 并 配置 路 径 。 


@ 创 建 目录 。 





mkdir -p /hdfs/namenode 
mkdir -p /hdfs/datanode 





在 hdfs-site.xmlI 中 配置 路 径 。 





<property> 

<name>dfs .namenode .name .dir</name> 
<value>file:/hdfs/namenode</value> 

</property> 

<property> 
<name>dfs .datanode.data.dir</name> 
<value>file:/hdfs/datanode</value> 

</property> 

<property> 
<name>dfs.replication</name> 
<value>3</value> 

</property> 

<property> 
<name>dfs .namenode.secondary.http-address</name> 
<value>Master: 9001</value> 

</property> 

<property> 

<name>dfs .webhdfs.enabled</name> 

<value>true</value> 

</property> 



































7) 配置 slaves 文 件 ， 在 其 中 加 入 所 有 从 节点 主机 名 ， 例 如: 


xX.X.X.xXx Workerl 
xX.X.X.xX Worker2 


8) 格式 化 namenode: 








/usr/local/hadoop/bin/hadoop namenode -format 


至 此 ，Hadoop 配 置 过 程 基本 完成 。 


1.2.5 ”Spark 的 安装 部 署 
登录 Spark 官 网 下 载 页 面 (http://spark.apache.org/downloads.html) 下 载 Spark。 这 里 选择 最 新 的 Spark 1.5.0 版 spark-1.5.0-bin-hadoop2.6.tgz (Pre-built for Hadoop2.6 and later) 。 
然后 解压 spark 安 装 包 至 本 地 指定 目录 : 


tar zxvf spark-1.5.0-bin-hadoop2.6.tgz -C /usr/local/ 
ln -s spark-1.5.0-bin-hadoop2.6 spark 











下 面 让 我 们 开始 Spark 的 配置 之 旅 吧 。 


1) 打开 /etc/profile， 末 尾 加 入 : 


export SPARK HOME=/usr/local/spark 
PATH=$PATH: $ {SPARK HOME}/bin 

















关闭 并 保存 profile， 然 后 命令 行 执行 source/etc/profile 使 配置 生效 。 


2) 打开 /etc/hosts， 加 入 集群 中 Master 及 各 个 Worker 节 点 的 ip 与 hostname 配 对 。 





Master-name 
workerl 
worker2 
worker3 


X XXX 





3) 进入 /usr/local/spark/conf， 在 命令 行 执 行 : 


cp spark-env.sh.template spark-env.sh 
Vi spark-env.sh 





末尾 加 入 : 





export JAVA HOME=/usr/1ib/jvm/java-1.7 
export SCALA HOME=/usr/local/ 














scala 
export SPARK MASTER IP=112.74.197.158< 以 本 机 为 例 > 
export SPARK WORKER MEMORY=1g 



































保存 并 退出 ， 执 行 命令 : 


cp slaves.template slaves 
Vi slaves 








在 其 中 加 入 各 个 Worker 节 点 的 hostname。 这 里 以 四 台 机 器 (master、worker1、worker2、worker3) 为 例 ， 那 么 slaves 文 件 内 容 如 下 : 


workerl 
worker2 
worker3 


1.2.6 ”Hadoop 与 Spark 的 集群 复制 


前 面 完成 了 Master 主 机 上 Hadoop 与 Spark 的 搭建 ， 现 在 我 们 将 该 环境 及 部 分 配置 文件 从 Master 分 发 到 各 个 Worker 节 点 上 (以 笔者 环境 为 例 ) 。 在 集群 环境 中 ， 由 一 台 主 机 向 多 台 主 机 间 的 文件 传输 一 
般 使 用 pssh 工 具 来 完成 。 为 此 ， 在 Master 上 建立 一 个 文件 workerlist.txt， 其 中 保存 了 所 有 Worker 节 点 的 IP， 每 次 文件 的 分 发 只 需要 一 行 命令 即 可 完成 。 


1) 复制 JDK 环 境 : 


pssh -hnh workerlist -r /usr/lib/jvm/java-1.7 / 








2) 复制 scala 环 境 : 


pssh -h workerlist -r /usr/local/scala / 








3) 复制 Hadoop: 








pssh -h workerlist -r /usr/local/hadoop / 





4) 复制 Spark 环 境 : 





pssh -h workerlist -xz /usr/local/spark / 





5) 复制 系统 配置 文件 : 








pssh -h workerlist /etc/hosts / 
pssh -hn workerlist /etc/profile / 

















至 此 ，Spark Linux 集 群 环境 搭建 完毕 。 


1.3 _ Spark 集群 试 运行 


下 面试 运行 Spark。 


1) 在 Master 主 机 上 ， 分 别 启动 Hadoop 与 Spark。 











cd /usr/local/hadoop/sbin/ 
a ]11 .sh 























cd /usr/local/spark/sbin 
./start-all.sh 











2) 检查 Master 与 Worker 进 程 是 否 在 各 自 节 点 上 启动 。 在 Master 主 机 上 ， 执 行 命令 jps， 如 图 1-5 所 示 。 


]- 工 5b1nmj## ]P5 
GOB Master 
$5320 NameNode 
488 SecondaryNameNode 


bis3 RESOUrCeEManNnager 
b3z3 Jps 
[reet 吕 ]- 荆 sbinj# 





图 1-5 ”在 Mastet 主 机 上 执行 jps 命 令 
在 Worker 节 点 上 ， 以 Worker1 为 例 ， 执 行 命令 jps， 如 图 1-6 所 示 。 


从 图 1-6 中 可 以 清晰 地 看 到 ，Master 进 程 与 Worker 及 相关 进程 在 各 自 节 点 上 成 功 运行 ，Hadoop 与 Spark 运 行 正常 。 


[rootBworkerl] sb1inj# TP5 
a550 NodeManager 
101U4 Jps 


9410 DataNode 
10037 Worker 
[root@workeri sb1nm|# 





图 1-6 ”在 Worker 节 点 上 执行 jps 命 令 
3) 通过 Spark Web UI 查看 集群 状态 。 在 浏览 器 中 输入 Master 的 IP 与 端口 ， 打 开 Spark Web Ul， 如 图 1-7 所 示 。 


从 图 1-7 中 可 以 看 到 ， 当 集群 内 仅 有 一 个 Worker 节 点 时 ，Spark Web Ul 显示 该 节点 处 于 Alive 状 态 ，CPU Cores 为 1， 内 人 存 为 1GB。 此 页 面 会 列 出 集群 中 所 有 启动 后 的 Worker 节 点 及 应 用 的 信息 。 
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图 1-7 Spatk Web UI 界面 


4) 运行 样 例 。Spark 自 带 了 一 些 样 例 程 序 可 供 试 运行 。 在 Spark 根 目录 下 ，example/src/main 文 件 夹 中 存放 着 Scala、Java、Python 及 用 R 语 言 编写 的 样 例 ， 用 户 可 以 运行 其 中 的 某 个 样 例 程 序 。 先 拷 
贝 到 Spark 根 目录 下 ， 然 后 执行 bin/run-example[classj[params] 即 可 。 例 如 可 以 在 Master 主 机 命令 行 执行 : 





./run-example SparkPi 10 


然后 可 以 看 到 该 应 用 的 输出 ， 在 Spark Web UI 上 也 可 以 查看 应 用 的 状态 及 其 他 信息 。 


1.4 “Intellij IDEA 的 安装 与 配置 


Intellj 1DE 是 目前 最 流行 的 Spark 开 发 环境 。 本 节 主 要 介绍 Intellj 开 发 工具 的 安装 与 配置 。Intelj 不 但 可 以 开发 Spark 应 用 ， 还 可 以 作为 Spark 源 代码 的 阅读 器 。 


1.4.1 Intellij 的 安装 


Inte 川 开发 环境 依赖 IDK、Scala。 
1.JDK 的 安装 
Intellij 1DE 需 要 安装 JDK 1.7 或 更 高 版 本 。Open JDK1.7 的 安装 与 配置 前 文中 已 讲 过 ， 这 里 不 表 蒙 述 。 


2.Scala 的 安装 


Scala 的 安装 与 配置 前 文 已 讲 过 ， 此 处 不 再 歼 述 。 

3.Intellij 的 安装 

登录 |nteli 官 方 网 站 (http://www.jetbrains.com/idea/) 下 载 最 新 版 Intellij linux 安 装 包 idealC-14.1.5.tar.gz， 然 后 执行 如 下 步骤 : 
1) 解压 : tar zxvf idealC-14.1.5.tar.gz-C/usr/ 

2) 运行 : 到 解压 后 的 目录 执行 ./idea.sh 

3) 安装 Scala 揪 件 : 打开 “File” 一 “Settings” 一 “Plugins” 一 “Install JetBrain plugin” 运 行 后 弹出 如 图 1-8 所 示 的 对 话 框 。 


单 击 右 侧 Install plugin 开 始 安装 Scala 插 件 。 


1.4.2 Intellij 的 配置 


1) 在 Intellij IDEA 中 新 建 Scala 项 目 ， 命 名 为 “Helloscala” ， 如 图 1-9 所 示 。 
2) 选择 菜单 “File” 一 “Project Structure” 一 “Libraries”， 单 击 “+” 号 ， 选 择 “java”， 定 位 至 前 面 Spark 根 目录 下 的 lib 目 录 ， 选 中 spark-assembly-1.5.0-hadoop2.6.0jar， 单 击 OK 按钮 。 


3) 与 上 一 步 相同 ， 单 击 “+” 号 ， 选 择 “scala”， 然 后 定位 至 前 面 已 安装 的 scala 目 录 ，scala 相 关 库 会 被 自动 引用 。 
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图 1-8 ” Scala 插件 弹出 窗口 
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图 1-9 在 Intellij IDEA 中 新 建 Scala 项 目 
4) 选择 菜单 “File” 一 “Project Structure” 一 “Platform Settings” 一 “SDKs”， 单 击 “+” 号 ， 选 择 JDK， 定 位 至 JDK 安 装 目 录 ， 单 击 OK 按 钮 。 


至 此 ，Intel 川 IDEA 开发 环境 配置 完毕 ， 用 户 可 以 用 它 开发 自己 的 Spark 程 序 了 。 


1.5 Eclipse 1DE 的 安装 与 配置 


现在 介绍 如 何 安装 Eclipse。 与 Intelj IDEA 类 似 ，Eclipse 环 境 依 赖 于 JDK 与 Scala 的 安装 。JDK 与 Scala 的 安装 前 文 已 经 详细 讲述 过 了 ， 在 此 不 再 歼 述 。 


对 最 初 需要 为 Ecplise 选 择 版 本 号 完全 对 应 的 Scala 揪 件 才 可 以 新 建 Scala 项 目 。 不 过 自从 有 了 Scala 1DE 工 具 ， 问 题 大 大 简化 了 。 因 为 Scala 1DE 中 集成 的 Eclipse 已 经 蔡 我 们 完成 了 前 面 的 工作 ， 用 户 可 以 
直接 登录 官网 (http://scala-ide.org/download/sdk.html) 下 载 安装 。 


安装 后 ， 进 入 Scala IDE 根 目录 下 的 bin 目 录 ,， 执 行 ./eclipse 启 动 IDE。 
然后 选择 “File” 一 “New” 一 “Scala Project” 打 开 项 目 配置 页 。 


输入 项 目 名 称 ， 如 HelloScala， 然 后 选择 已 经 安装 好 的 JDK 版 本 ， 单 击 Finish 按 钮 。 接 下 来 就 可 以 进行 开发 工作 了 ， 如 图 1-10 所 示 。 
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图 1-10 已经 创建 好 的 HelloScala 项 目 


1.6 ”使 用 Spark Shell 开 发 运行 Spark 程 序 


Spark Shell 是 一 种 学 习 API 的 简单 途径 ， 也 是 分 析 数 据 集 交互 的 有 力 工具 。 

虽然 本 章 还 没 涉及 Spark 的 具体 技术 细节 ， 但 从 总 体 上 说 ，Spark 弹 性 数据 集 RDD 有 两 种 创建 方式 : 

` 从 文件 系统 输入 (如 HDFS) 。 

" 从 已 存在 的 RDD 转 换 得 到 新 的 RDD。 

现在 我 们 从 RDD 入 手 ， 利 用 spark Shell 简 单 演示 如 何 书写 并 运行 Spark 程 序 。 下 面 以 word count 这 个 经 典 例 子 来 说 明 。 


1) 启动 spark shell: cd 进 SPARK_HOME/bin， 执 行 命令 。 


./spark-shell 


2) 进入 scala 命 令 行 ， 执 行 如 下 命令 : 












































scala> val file sc.textrFile("hdfs://localhost:50040/hellosparkshell") 
scala> val count = file.flatMap(line => line.split(" ")) .map(word => (word, 1)) .requceByKey( + ) 
scala> count.collect () 











首先 从 本 机 上 读 取 文件 hellosparkshell， 然 后 解析 该 文件 ， 最 后 统计 单词 及 其 数量 并 输出 如 下 : 


15/09/29 16:11:46 INFO spark.SparkContext: Job finished: collect at <console>:17, took 1.624248037 s 
res5: Array[ (String, Int)] = Array( (hello,12), (spark,12), (shell,12), (this,1), (is,1), (chapter,l1), (three,1) 











1.7 ”本章 小 结 


本 章 着 重 描 述 了 Spark 的 生态 及 架构 ， 使 读者 对 Spark 的 平台 体系 有 初步 的 了 解 。 进 而 描述 了 如 何在 Linux 平 台 上 构建 Spark 集 群 ， 帮 助 读者 构建 自己 的 Spark 平 台 。 最 后 又 着 重 描 述 了 如 何 搭建 Spark 开 
发 环境 ， 有 助 于 读者 对 Spark 开 发 工具 进行 一 定 了 解 ， 并 独立 搭建 开发 环境 。 


第 2 章 “Spark 编程 模型 


与 Hadoop 相 比 ，spark 最 初 为 提升 性 能 而 诞生 。spark 是 Hadoop MapReduce 的 演化 和 改进 ， 并 兼容 了 一 些 数据 库 的 基本 思想 ， 可 以 说 ，spark 一 开始 就 站 在 Hadoop 与 数据 库 这 两 个 巨人 的 肩膀 上 。 
同时 ，Spark 依 靠 Scala 强 大 的 函数 式 编程 Actor 通 信 模 式 、 闭 包 、 容 器 、 泛 型 ， 并 借助 统一 资源 调度 框架 ， 成 为 一 个 简洁 、 高 效 、 强 大 的 分 布 式 大 数据 处 理 框架 。 


spark 在 运算 期 间 ， 将 输入 数据 与 中 间 计 算 结 果 保存 在 内 存 中 ， 直 接 在 内 人 存 中 计算 。 另 外 ， 用 户 也 可 以 将 重复 利用 的 数据 缓存 在 内 存 中 ， 缩 短 数 据 读 写 时 间 ， 以 提高 下 次 计算 的 效率 。 显 而 易 见 ，Spark 
基于 内 存 计算 的 特性 使 其 擅长 于 迭代 式 与 交互 式 任务 ， 但 也 不 难 发 现 ，Spark 需 要 大 量 内 人 存 来 完成 计算 任务 。 集 群 规模 与 Spark 性 能 之 间 呈 正比 关系 ， 随 着 集群 中 机 器 数量 的 增长 ，Spark 的 性 能 也 呈 线 性 增 
长 。 接 下 来 介绍 Spark 编 程 模型 。 


2.1 RDD 弹 性 分 布 式 数 据 集 


通常 来 讲 ， 数 据 处 理 有 几 种 常见 模型 : |terative Algorithms、Relational Queries、Map-Reduce、Stream Processing。 例 如 ，Hadoop MapReduce 采 用 了 MapReduce 模 型 ，Storm 则 采用 了 


Stream Processing 模 型 。 


与 许多 其 他 大 数据 处 理 平台 不 同 ，Spark 建 立 在 统一 抽象 的 RDD 之 上 ， 而 RDD 混 合 了 上 述 这 4 种 模型 ， 使 得 Spark 能 以 基本 一 致 的 方式 应 对 不 同 的 大 数据 处 理 场景 ， 包 括 MapReduce、Streaming.、 
SQL、Machine Learning 以 及 Graph 等 。 这 契合 了 Matei Zaharia 提 出 的 原则 : “设计 一 个 通用 的 编程 抽象 (Unified Programming Abstraction) ”， 这 也 正 是 Spark 的 魅力 所 在 ， 因 此 要 理解 Spark， 先 
要 理解 RDD 的 概念 。 


2.1.1 _ RDD 简 介 


RDD (Resilient Distributed Datasets， 弹 性 分 布 式 数据 集 ) 是 一 个 容错 的 、 并 行 的 数据 结构 ， 可 以 让 用 户 显 式 地 将 数据 存储 到 磁盘 或 内 存 中 ， 并 控制 数据 的 分 区 。RDD 还 提供 了 一 组 丰富 的 操作 来 操 
作 这 些 数据 ， 诸 如 map、flatMap、filter 等 转换 操作 实现 了 monad 模 式 ， 很 好 地 契合 了 scala 的 集合 操作 。 除 此 之 外 ，RDD 还 提供 诸如 join、groupBy、reduceByKey 等 更 为 方便 的 操作 ， 以 支持 常见 的 数 
据 运 算 。 


RDD 是 Spark 的 核心 数据 结构 ， 通 过 RDD 的 依赖 关系 形成 Spark 的 调度 顺序 。 所 谓 Spark 应 用 程序 ， 本 质 是 一 组 对 RDD 的 操作 。 
下 面 介绍 RDD 的 创建 方式 及 操作 算 子 类 型 。 

" RDD 的 两 种 创建 方式 

. 从 文件 系统 输入 (如 HDFS) 创建 


“ 从 已 存在 的 RDD 转 换 得 到 新 的 RDD 


RDD 的 两 种 操作 算 子 
: Transfotmation (变换 ) 


Transformation 类 型 的 算 子 不 是 立刻 执行 ， 而 是 延迟 执行 。 也 就 是 说 从 一 个 RDD 变 换 为 另 一 个 RDD 的 操作 需要 等 到 Action 操 作 触 发 时 ， 才 会 真正 执行 。 
. Action (行动 ) 


Action 类 型 的 算 子 会 触发 Spark 提 交 作 业 ， 并 将 数据 输出 到 Spark 系 统 。 


2.1.2 ”深入 理解 RDD 


RDD 从 直观 上 可 以 看 作 一 个 数组 ， 本 质 上 是 逻辑 分 区 记录 的 集合 。 在 集群 中 ， 一 个 RDD 可 以 包含 多 个 分 布 在 不 同 节点 上 的 分 区 ， 每 个 分 区 是 一 个 dataset 片 段 ， 如 图 2-1 所 示 . 
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图 2-1 RDD 分 区 


在 图 2-1 中 ，RDD-1 含 有 三 个 分 区 (p1、p2 和 p3) ， 分 布 存储 在 两 个 节点 上 : node1 与 node2。RDD-2 只 有 一 个 分 区 P4， 存 储 在 node3 节 点 上 。RDD-3 含 有 两 个 分 区 P5 和 P6， 人 存储 在 node4 节 点 上 。 


1.RDD 依 赖 


RDD 可 以 相互 依赖 ， 如 果 RDD 的 每 个 分 区 最 多 只 能 被 一 个 Child RDD 的 一 个 分 区 使 用 ， 则 称 之 为 窄 依赖 (narrow dependency) ; 若 多 个 Child RDD 分 区 都 可 以 依赖 ， 则 称 之 为 宽 依 赖 (wide 


人 日 


dependency) 。 不 同 的 操作 依据 其 特性 ， 可 能 会 产生 不 同 的 依赖 。 例 如 ，map 操 作 会 产生 窄 依赖 ，join 操 作 则 产生 宽 依 赖 ， 如 图 2-2 所 示 。 
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图 2-2 ”RDD 依 赖 
2.RDD 支 持 容错 性 
支持 容错 通常 采用 两 种 方式 : 日 志 记 录 或 者 数据 复制 。 对 于 以 数据 为 中 心 的 系统 而 言 ， 这 两 种 方式 都 非常 昂贵 ， 因 为 它 需要 跨 集群 网 络 拷贝 大 量 数据 。 


RDD 天 生 是 支持 容错 的 。 首 先 ， 它 自身 是 一 个 不 变 的 (immutable) 数据 集 ， 其 次 ，RDD 之 间 通 过 lineage 产 生 依 赖 关 系 (在 下 章 继续 探讨 这 个 话题 ) ， 因 此 RDD 能 够 记 住 构建 它 的 操作 图 ， 当 执行 任 
务 的 Worker 失 败 时 ， 完 全 可 以 通过 操作 图 获得 之 前 执行 的 操作 ， 重 新 计算 。 因 此 无 须 采 用 replication 方 式 支 持 容错 ， 很 好 地 降低 了 跨 网 络 的 数据 传输 成 本 。 


3.RDD 的 高 效 性 


RDD 提 供 了 两 方面 的 特性 : persistence (持久 化 ) 和 partitioning (分 区 ) ， 用 户 可 以 通过 persist 与 partitionBy 函 数 来 控制 这 两 个 特性 。RDD 的 分 区 特性 与 并 行 计算 能 力 (RDD 定 义 了 parallerize 函 | 
数 ) ， 使 得 Spark 可 以 更 好 地 利用 可 伸缩 的 硬件 资源 。 如 果 将 分 区 与 持久 化 二 者 结合 起 来 ， 就 能 更 加 高 效 地 处 理 海量 数据 。 


另外 ，RDD 本 质 上 是 一 个 内 存 数据 集 ， 在 访问 RDD 时 ， 指 针 只 会 指向 与 操作 相关 的 部 分 。 例 如 ， 存 在 一 个 面向 列 的 数据 结构 ， 其 中 一 个 实现 为 Int 型 数组 ， 另 一 个 实现 为 Float 型 数组 。 如 果 只 需要 访问 
Int 字 段 ，RDD 的 指针 可 以 只 访问 Int 数 组 ， 避 免 扫描 整个 数据 结构 。 


再 者 ， 如 前 文 所 述 ，RDD 将 操作 分 为 两 类 : Transformation 与 Action。 无 论 执 行 了 多 少 次 Transformation 操 作 ，RDD 都 不 会 真正 执行 运算 ， 只 有 当 Action 操 作 被 执行 时 ， 运 算 才 会 触发 。 而 在 RDD 的 
内 部 实现 机 制 中 ， 底 层 接口 则 是 基于 和 迭代 器 的 ， 从 而 使 得 数据 访问 变 得 更 高 效 ， 也 避免 了 大 量 中 间 结 果 对 内 存 的 消耗 。 


在 实现 时 ，RDD 针 对 Transformation 操 作 ， 提 供 了 对 应 的 继承 自 RDD 的 类 型 ， 例 如 ，map 操 作 会 返回 MappedRDD，flatMap 则 返回 FlatMappedRDD。 执 行 map 或 flatMap 操 作 时 ， 不 过 是 将 当前 
RDD 对 象 传递 给 对 应 的 RDD 对 象 而 已 。 


2.1.3 RDD 特 性 总 结 


RDD 是 Spark 的 核心 ， 也 是 整个 Spark 的 架构 基础 。 它 的 特性 可 以 总 结 如 下 : 
1) RDD 是 不 变 的 (immutable) 数据 结构 存储 。 

2) RDD 将 数据 存储 在 内 存 中 ， 从 而 提供 了 低 延 迟 性 。 

3) RDD 是 支持 跨 集群 的 分 布 式 数据 结构 。 

4) RDD 可 以 根据 记录 的 Key 对 结构 分 区 。 


5) RDD 提 供 了 粗 粒 度 的 操作 ， 并 且 都 支持 分 区 。 


2.2 Spark 程序 模型 


下 面 给 出 一 个 经 典 的 统计 日 志 中 ERROR 的 例子 ， 以 便 读者 直观 理解 Spark 程 序 模型 。 


1) SparkContext 中 的 textFile 函 数 从 存储 系统 (如 HDFS) 中 读 取 日 志文 件 ， 生 成 file 变 量 。 





scala> Var file = sc.textFile("hdfs: //http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16122/0EBPS/Text/...") 











2) 统计 日 志文 件 中 ， 所 有 含 ERROR 的 行 。 














scala> Var errors = file.filer (line=>line.contains ("ERROR")) 








3) 返回 包含 ERROR 的 行 数 。 


errors.count () 





RDD 的 操作 与 Scala 集 合 非常 类 似 ， 这 是 Spark 努 力 追求 的 目标 : 像 编写 单机 程序 一 样 编写 分 布 式 应 用 。 但 二 者 的 数据 和 运行 模型 却 有 很 大 不 同 ， 如 图 2-3 所 示 。 


RDD-file RDD-errors 











RDD-Result 


result 








INFO: mnfo-1 
INFO: info-2 
ERROR:error-1 
ERROR:error-2 
ERROR:error-3 
INFO:Info-3 
ERROR:error-4 





Block Manager 


INFO: mnfo-1 ERROR:error-2 ERROR:error-9 
INFO: mnfo-2 ERROR:error-3 ERROR:error-10 
ERROR:error-l] ERROR:error-4 


图 2-3 ”Spa 剑 程序 模型 


在 图 2-3 中 ， 每 一 次 对 RDD 的 操作 都 造成 了 RDD 的 变换 。 其 中 RDD 的 每 个 逻辑 分 区 Partition 都 对 应 Block Manager (物理 存储 管理 器 ) 中 的 物理 数据 块 Block (保存 在 内 存 或 硬盘 上 ) 。 前 文 已 强 
调 ，RDD 是 应 用 程序 中 核心 的 元 数据 结构 ， 其 中 保存 了 逻辑 分 区 与 物理 数据 块 之 间 的 映射 关系 ， 以 及 父辈 RDD 的 依赖 转换 关系 。 


2.3 ”Spark 算 子 


本 节 介 绍 Spark 算 子 的 分 类 及 其 功能 。 


2.3.1 算 子 简介 


Spark 应 用 程序 的 本 质 ， 无 非 是 把 需要 处 理 的 数据 转换 为 RDD， 然 后 将 RDD 通 过 一 系列 变换 (transformation) 和 操作 (action) 得 到 结果 ， 简 单 来 说 ， 这 些 变换 和 操作 即 为 算 子 。 


Spark 支 持 的 主要 算 子 如 图 2-4 所 示 。 


maplf :T)U):RDDITI)RDDIU 

filter(f : T } Bool) : RDD[T] } RDDIT] 

flatMap(f : T ) Seg[U]) : RDD[T| ) RDDIU 

sample(fraction : Float) : RDD[T] ) RDDI[T] (Deterministic sampling) 
groupByKey() : RDD[(K, V } RDDL(K, Seq[lV])] 

reduceByKey(f : (V; V) )V) : RDDI(K V})] } RDD[(K, V)] 

union() : (RDD[T]; RDD[T]) )》 RDD[T] 

join() : (RDD[(K, V}]; RDD[(K, W)]) } RDD[(K, (V, W))] 

cogroup() : (RDD[(K, V)]; RDDI(K, W)]) } RDDI[(K, (Seq[V], Seg[LW]))] 
crossProduct() : (RDD[T]; RDD[U]) } RDD[(T, U)] 

mapVvalues(f : V ) W) : RDD[(K, V}] )} RDD[(K, W}] (Preserves partitioning) 
sort(c : Comparator[K]) : RDD[(K, V}] ) RDD[(K, V) | 

partitionBy(p : Partitioner[K]) : RDD[(K, V})] ) RDDICK, V)] 


count() : RDD[T] ) Long 

collect() : RDDIT] ) Seg[T] 

reduce(f : (T; T) )T :RDDIT }T 

lookup(k : K) : RDD[(K, V}] ) Seg[lV| (On hash/range partitioned RDDs) 
save(path : Stnng) : Outputs RDD to a storage system, e.g., HDFS 





图 2-4 Spatk 支 持 的 算 子 
根据 所 处 理 的 数据 类 型 及 处 理 阶段 的 不 同 ， 算 子 大 致 可 以 分 为 如 下 三 类 : 
1) 处 理 Value 数 据 类 型 的 Transformation 算 子 ; 这 种 变换 并 不 触发 提交 作业 ， 处 理 的 数据 项 是 Value 型 的 数据 。 
2) 处 理 Key-Value 数 据 类 型 的 Transfromation 算 子 ; 这 种 变换 并 不 触发 提交 作业 ， 处 理 的 数据 项 是 Key-Value 型 的 数据 对 。 


3) Action 算 子 : 这 类 算 子 触发 SparkContext 提 交 作 业 。 


2.3.2 Value 型 Transmation 算 子 


对 于 处 理 Value 类 型 数据 的 Transformation 算 子 ， 依 据 RDD 的 输入 分 区 与 输出 分 区 的 对 应 关系 ， 可 以 将 该 类 算 子 分 为 5 类， 如 表 2-1 所 示 。 


表 2-1 Value 型 算 子 的 分 类 
输出 分 区 数量 


| 
2 


4 包 侣 输出 分 区 ”| 为 输入 分 区 的 于 集 


如 表 2-1 所 示 ，Value 型 的 Transformation 算 子 分 类 具体 如 下 : 





(2 ~ — 





1) 输入 分 区 与 输出 分 区 1 对 1 型 。 


2) 输入 分 区 与 输出 分 区 多 对 1 型 。 


3) 输入 分 区 与 输出 分 区 多 对 多 型 。 
4) 输出 分 区 为 输入 分 区 子 集 。 

5) Cache 型 ， 对 RDD 的 分 区 缓存 。 
下 面 详细 介绍 这 五 种 分 类 。 

1. 输 入 分 区 与 输出 分 区 1 对 1 型 


1) map 算 子 : map 是 对 RDD 中 的 每 个 元 素 都 执行 一 个 指定 函数 来 产生 一 个 新 的 RDD。 任 何 原 RDD 中 的 元 素 在 新 RDD 中 都 有 且 只 有 一 个 元 素 与 之 对 应 ， 如 图 2-5 所 示 。 


、 





图 2-5 map 


在 图 2-5 中 ，RDD-1 中 的 元 素 V1 经 过 函数 映射 后 ， 变 为 新 的 元 素 V'1， 最 终 构 成 新 的 RDD-2。 输 入 输出 分 区 1 对 1 型 不 会 产生 任何 变化 。 注 意 ， 事 实 上 ， 只 有 Action 算 子 被 触 友 后 ， 这 些 操作 才 会 被 真正 


2) flatMap: 与 map 类 似 ， 将 原 RDD 中 的 每 个 元 素 通 过 函数 {转换 为 新 的 元 素 ， 并 将 这 些 元 素 放 入 一 个 集合 ， 构 成 新 的 RDD， 如 图 2-6 所 示 。 


flatMap 





图 2-6 flatMap 
RDD-1 经 过 flatMap 变 换 为 新 的 RDD-2， 此 时 A' 与 B' 处 于 同一 集 


一 人 侍 公 


个 集合 ，B1、B2、B3 属 于 另 一 个 集合 。 


在 图 2-6 中 ， 外 面 大 的 矩形 表示 分 区 ， 小 的 矩形 表示 元 素 集合 。 如 元 素 A1、A2 人 在 RDD-1 中 属于 一 
3) mapPartitions: mapPartitions 是 map 的 一 个 变种 。map 的 输入 函数 应 用 于 RDD 中 的 每 个 元 素 ， 而 mapPartitions 的 输入 函数 应 用 于 每 个 分 区 ， 也 就 是 把 每 个 分 区 中 的 内 容 作 为 整体 来 处 理 的 。 


合 中 。 


























mappPartitions 的 函数 定义 为 : 
def mapPartitions[U: ClassTag] (f: Iterator [T] => Iterator[U], preservesPartitioning: Boolean = false): RDDIU] 
fp 为 输入 函数 ， 它 处 理 每 个 分 区 中 的 内 容 。 每 个 分 区 中 的 内 容 将 以 lterator[T] 传 递 给 输入 函数 f{，f 的 输出 结果 是 |terator[U]。 最 终 的 RDD 由 所 有 分 区 经 过 输入 函数 处 理 后 的 结果 合并 起 来 的 ， 如 图 2-7 所 


、 


mapPartitions 






iter.filter( >0) 








iter.filter( >0) 





图 2-7 mapPattitions 
在 图 2-7 中 ， 用 户 通过 f (iter) =>iter.filter (_>0) 对 元 素 过 滤 ， 保 留 大 于 0 的 元 素 。 其 中 方 框 为 分 区 ， 昌 然 过 滤 了 元 素 ， 但 原 有 分 区 保持 不 变 。 


4) glom: 将 每 个 分 区 内 的 元 素 组 成 一 个 数组 ， 分 区 不 变 ， 如 图 2-8 所 示 。 


~ 


clom 


1 Array[(—2),(—1),(0)] 





Array[(6),(7),(8)] 





图 2-8 glom 
图 2-8 中 的 方 框 代 表 分 区 ，glom 算 子 将 每 个 分 区 内 的 元 素 组 成 一 个 数组 。 
2. 输 入 分 区 与 输出 分 区 多 对 1 型 


1) union: 合并 同一 数据 类 型 元 素 ， 但 不 去 重 。 合 并 后 返回 同类 型 的 数据 元 素 ， 如 图 2-9 所 示 。 


Unlon 





图 2-9 union 


图 2-9 中 的 大 方 框 代表 RDD， 内 部 小 方 框 代表 RDD 分 区 ， 合 并 后 同一 类 型 元 素 位 于 同一 分 区 中 。 


2) cartesian: 对 输入 RDD 内 的 所 有 元 素 计 算 笛 卡尔 积 ， 如 图 2-10 所 示 。 


cartestlan 





图 2-10 cartesian 
3. 输 入 分 区 与 输出 分 区 多 对 多 型 


groupBy: 先 将 元 素 通过 函数 生成 Key， 元 素 转 为 “Key-Value” 类 型 之 后 ， 将 Key 相 同 的 元 素 分 为 一 组 ， 如 图 2-11 所 示 . 


~ 


(A1,C1) 
(A1,C2) 
(A2,C1) 
(A2,C2) 


(B1,C1) 
(B1,C2) 
(B2,C1) 
[B202) 


、 


groupBy 


A-(A1,A2) 


B-(B1,B2) 
C-(C1,C2) 





图 2-11 groupBy 
在 图 2-11 中 可 以 看 到 三 个 分 区 ， 经 过 groupBy 变 换 后 ，Key 相 同 的 元 素 被 合并 到 一 组 。 
4. 输 出 分 区 为 输入 分 区 子 集 
1) filter: 对 RDD 中 的 元 素 进行 过 滤 ， 过 滤 函 数 返回 true 的 元 素 保留 ， 否 则 删除 ， 如 图 2-12 所 示 。 


图 2-12 中 的 方 框 为 RDD 的 分 区 。 





~ 


filter 


filter( >5) 








图 2-12 filter 


2) distinct: 对 RDD 中 的 元 素 进行 去 重 操作 ， 重 复 的 元 素 只 保留 一 份 。 

3) substract: 对 集合 进行 差 操 作 ， 即 RDD1 中 去 除 RDD1 与 RDD2 的 交集 。 

4) sample: 对 RDD 集 合 内 的 元 素 采 样 。 

5) takesample: 与 sample 算 子 类 似 ， 可 以 设 定 采 样 个 数 。 

5.Cache 型 (RDD 持 久 化 操作 ) 

1) cache: 将 RDD 元 素 从 磁盘 缓存 到 内 存 。 

2) persist: 与 cache 类 似 ， 但 比 cache 功 能 更 强大 ，persist 函 数 可 以 指定 存储 级 别 。 完 整 的 存储 级 别 列表 如 表 2-2 所 示 。 


表 2-2 存储 级 别 






存储 级 别 


MEMORY ONLY 


MEMORY AND DISK 


MEMORY ONLY SER 


MEMORY AND DISK SER 


DISK ONLY 
MEMORY ONLY 2， 
MEMORY AND DISK 2, etc. 


OFF HEAP(experimental) 


2.3.3 Key-Value 型 Transmation 算 子 


描述 


将 RDD 作为 非 序 列 化 的 Java 对 象 存 储 在 JVM 中 。 如 果 RDD 不 适合 存在 内 
存 中 ， 一 些 分 区 将 不 会 被 缓存 ， 从 而 在 每 次 需要 这 些 分 区 时 都 需 重 新 计算 它们 。 
这 是 系统 默认 的 存储 级 别 

将 RDD 作为 非 序 列 化 的 Java 对 象 存储 在 JVM 中 。 如 果 RDD 不 适合 存在 内 
存 中 ， 将 这 些 不 适合 存在 内 存 中 的 分 区 存储 在 磁盘 中 ， 每 次 需要 时 读 出 它们 


将 RDD 作为 序列 化 的 Java 对 象 存 储 (每 个 分 区 一 个 byte 数组 ) 。 这 种 方式 比 
非 序列 化 方式 更 节省 空间 ， 特 别 是 用 快速 的 序列 化 工具 时 ， 但 是 会 更 耗费 CPU 
换 源 一 一 密集 的 谈 操 作 

和 MEMORY _ ONLY _SER 类 似 ， 但 不 是 在 每 次 需要 时 ， 都 重复 计算 这 些 不 适 
合 存储 到 内 存 中 的 分 区 ， 将 这 些 分 区 存储 到 磁盘 中 


仅仅 将 RDD 分 区 存储 到 磁盘 中 
和 上 面 的 存储 级 别 类 似 ， 但 是 复制 每 个 分 区 到 集群 的 两 个 节点 上 


以 序列 化 的 格式 存储 RDD 到 Tachyon 中 ， 相 对 于 MEMORY ONLY SER, 
OFF HEAP 减少 了 垃圾 回收 的 花费 ， 人 允许 更 小 的 执行 者 共享 内 存 池 。 这 使 其 在 
拥有 大 量 内 存 的 环境 下 或 者 多 并 发 应 用 程序 的 环境 中 ， 具 有 更 强 的 吸引 力 





处 理 数据 类 型 为 Key-Value 的 Transmation 算 子 ， 大 致 可 以 分 为 三 类 : 


1. 输 入 输出 分 区 1 对 1 


mapValues 顾 名 思 义 就 是 输入 函数 应 用 于 RDD 中 KV (Key-Value) 类 型 元 素 中 的 Value， 原 RDD 中 的 Key 保 持 不 变 ， 与 新 的 Value 一 起 组 成 新 的 RDD 中 的 元 素 。 因 此 ， 该 函数 只 适用 于 元 素 为 Key-Value 


对 的 RDD， 如 图 2-13 所 示 。 


图 2-13 中 的 输入 函数 对 Value 分 别 进行 加 10 操 作 ， 形 成 新 的 RDD， 包 含 KV 类 型 新 元 素 。 


mapValues 





图 2-13 mapValues 


2. 聚 集 操作 
(1) 对 一 个 RDD 聚 集 


1) reduceByKey: 对 元 素 为 KV 对 的 RDD 中 Key 相 同 的 元 素 的 Value 进行 reduce 操 作 ， 即 两 个 值 合并 为 一 个 值 。 因 此 ，Key 相 同 的 多 个 元 素 的 值 被 合并 为 一 个 值 ， 然 后 与 原 RDD 中 的 Key 组 成 一 个 新 的 KV 
对 ， 如 图 2-14 所 示 。 


2) combineByKey: 与 reduceByKey 类 似 ， 相 当 于 将 元 素 (int，int) KV 对 变换 为 (int，Seq[int]) 新 的 KV 对 ， 如 图 2-15 所 示 。 


、 
reproduceBykey 


























comblneByKey 


Al 一 9eq(1, 2) 
A2 一 9eq(9) 
A3 一 eq(O) 


Bl — Seq(1, 2, 3) 








3) partitionBy: 根据 KV 对 的 Key 对 RDD 进 行 分 区 ， 如 图 2-16 所 示 。 


partitionBy 









到 
| 
| 
| 
| 
I 





图 2-16 pattitionBy 


(2) 对 两 个 RDD 聚 集 


coGroup: 一 组 强大 的 函数 ， 可 以 对 多 达 3 个 RDD 根 据 key 进 行 分 组 ， 将 每 个 Key 相 同 的 元 素 分 别 聚集 为 一 个 集合 ， 如 图 2-17 所 示 。 


coGroup 


V1 ((1),(1)) 
V2 一 ((2),(nulD) 
V8 一 ((null),(2)) 


U1 — ((1),(2)) 
U5 — ((4),(1)) 





图 2-17 coGroup 
图 2-17 中 的 大 方 框 为 RDD， 内 部 小 方 框 为 RDD 中 的 分 区 。 
3. 连 接 
1) join: 本 质 是 对 两 个 含有 KV 对 元 素 的 RDD 进 行 coGroup 算 子 协同 划分 ， 再 通过 flatMapValues 将 合并 的 数据 分 散 。 


2) leftOutJoin 与 rightOutJoin: 相当 于 在 join 基础 上 判断 一 侧 的 RDD 是 否 为 空 ， 如 果 为 空 ， 则 填充 空 ， 如 果 有 数据 ， 则 将 数据 进行 连接 计算 ， 然 后 返回 结果 。 


2.3.4 _ Action 算 子 


Action 算 子 可 以 依据 其 输出 空间 划分 为 : 无 输出 、HDFS、Scala 集 合 及 数据 类 型 。 
1. 无 输出 


foreach 是 对 RDD 中 的 每 个 元 素 执行 无 参数 的 f 涵 数 ， 返 回 Unit。 定 义 如 下 : 

















def foreach (f: T => Unit) 





foreach 功 能 示例 如 图 2-18 所 示 。 
图 2-18 中 定义 了 println 打 印 国 数 ， 打 印 RDD 中 的 所 有 数据 项 。 
2.HDFS 


1) saveAsTextFile: 水 数 将 RDD 保 存 为 文本 至 HDFS 指 定 目 录 ， 每 次 输出 一 行 。 功 能 示例 如 图 2-19 所 示 。 
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图 2-19 saveAsTextFile 
在 图 2-19 中 ， 通 过 遂 数 将 RDD 中 的 每 个 元 素 映射 为 (null，x.toString) ， 然 后 写 入 HDFS 块 。RDD 的 每 个 分 区 存储 为 HDFS 中 的 数据 块 Block。 


2) saveAsObjectFile: 将 RDD 分 区 中 每 10 个 元 素 保存 为 一 个 数组 并 将 其 序列 化 ， 映 射 为 (null，BytesWritable (Y) ) 的 元 素 ， 以 SequencefFile 的 格式 写 入 HDFS， 如 图 2-20 所 示 。 
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图 2-20 saveAsObjectFile 
3.Scala 集 合 及 数据 类 型 


1) collect: 将 RDD 分 散 存 储 的 元 素 转 换 为 单机 上 的 Scala 数 组 并 返回 ， 类 似 于 toArray 功 能 ， 如 图 2-21 所 示 。 
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图 2-21 collect 
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2) collectAsMap: 与 collect 类 似 ， 将 元 素 类 型 为 key-value 对 的 RDD， 转 换 为 Scala Map 并 返回 ， 保 存 元 素 的 KV 结 构 。 


3) lookup: 扫描 RDD 的 所 有 元 素 ， 选 择 与 参数 匹配 的 Key， 并 将 其 Value 以 Scala sequence 的 形式 返回 ， 如 图 2-22 所 示 。 
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图 2-22 lookup 
4) reduceByKeyLocally: 先 reduce， 然 后 collectAsMap。 
5) count: 返回 RDD 中 的 元 素 个 数 。 
6) reduce: 对 RDD 中 的 所 有 元 素 进 行 reduceLeft 操 作 。 


例如 ， 当 用 户 函 数 定义 为 : f:， (A, B) => (A. 1+"@"+B. 1，A. 2+B. 2) 时 ，reduce 算 子 的 计算 过 程 如 图 2-23 所 示 。 
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图 2-23 reduce 
7) top/take: 返回 RDD 中 最 大 /最 小 的 K 个 元 素 。 
8) fold: 与 reduce 类 似 ， 不 同 的 是 每 次 对 分 区 内 的 value 聚 集 时 ， 分 区 内 初始 化 的 值 为 zero value。 


例如 ， 当 用 户 自 定义 函数 为 : fold ( ("A0", 0) ) ( (A，B) =>A._1+"@"+B. 1，A. 2+B. 2) ) 时 ，fold 算 子 的 计算 过 程 如 图 2-24 所 示 。 
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图 2-24 fold 


9) aggregate: 人 允许 用 户 对 RDD 使 用 两 个 不 同 的 reduce 国 数 ， 第 一 个 reduce 函 数 对 各 个 分 区 内 的 数据 聚集 ， 每 个 分 区 得 到 一 个 结果 。 第 二 个 reduce 函 数 对 每 个 分 区 的 结果 进行 聚集 ， 最 终 得 到 一 个 总 
的 结果 。aggregate 相 当 于 对 RDD 内 的 元 素数 据 归并 聚集 ， 且 这 种 聚集 是 可 以 并 行 的 。 而 fold 与 reduced 的 聚集 是 串 行 的 。 


10) broadcast (广播 变量 ) : 人 存储 在 单 节点 内 存 中 ， 不 需要 跨 节点 存储 。Spark 运 行 时 ， 将 广播 变量 数据 分 发 到 各 个 节点 ， 可 以 跨 作 业 共 享 。 


11) accucate: 人 允许 全 局 累加 操作 。accumulator 被 广泛 用 于 记录 应 用 运行 参数 。 


2.4 本章 小 结 


通过 阅读 第 1 章 的 内 容 ， 相 信 读 者 对 Spark 的 整体 概念 及 框架 已 有 概要 的 了 解 ， 并 对 Spark 的 集群 环境 及 开发 工具 了 然 于 胸 。 本 章 了 承上启下， 带领 读者 了 解 Spark 最 核心 的 内 容 ， 即 RDD 弹 性 分 布 式 数据 
， 同 时 给 出 一 个 典型 的 编程 范例 ， 最 后 深入 讲解 了 基于 RDD 的 算 子 操作 。 学 习 完 本 章 基础 知识 后 ， 下 一 章 将 深入 介绍 Spark 的 基本 机 制 与 原理 。 


粮 


第 3 草 ”Spark 机 制 原理 


本 书 前 面 几 章 分 别 介绍 了 Spark 的 生态 系统 、Spark 运 行 模式 及 Spark 的 核心 概念 RDD 和 基本 算 子 操作 等 重要 基础 知识 。 本 章 重点 讲解 Spark 的 主要 机 制 原理 ， 因 为 这 是 Spark 程 序 得 以 高 效 执行 的 核心 。 
本 章 先 从 Application、job、stage 和 task 等 层次 阐述 Spark 的 调度 逻辑 ， 并 且 介 绍 FIFO、FAIR 等 经 典 算法 ， 然 后 对 Spark 的 重要 组 成 模块 : MO 与 通信 控制 模块 、 容 错 模块 及 shuffle 模 块 做 了 深入 的 阐述 。 
其 中 ， 在 Spark 1/O 模 块 中 ， 数 据 以 数据 块 的 形式 管理 ， 存 储 在 内 存 、 磁 盘 或 者 Spark 集 群 中 的 其 他 机 器 上 。Spark 集 群 通信 机 制 采 用 了 AKKA 通 信 框 架 ， 在 集群 机 器 中 传递 命令 和 状态 信息 。 另 外 ， 容 错 是 分 
布 式 系统 的 一 个 重要 特性 ，Spark 采 用 了 lineage 与 checkpoint 机 制 来 保证 容错 性 。Spark Shuffle 模 块 借鉴 了 MapReduce 的 Shuffle 机 制 ， 但 在 其 基础 上 进行 了 改进 与 创新 。 


3.1 Spark 应 用 执行 机 制 分 析 


下 面 对 Spark Application 的 基本 概念 和 执行 机 制 进行 深入 介绍 。 


3.1.1 Spark 应 用 的 基本 概念 

Spark 应 用 (Application) 是 用 户 提 交 的 应 用 程序 。Spark 运 行 模式 分 为 : Local、Standalone、YARN、Mesos 等 。 根 据 Spark Application 的 Driver Program 是 否 在 集群 中 运行 ，Spark 应 用 的 运行 
方式 又 可 以 分 为 Cluster 模 式 和 Client 模 式 。 

下 面 介 绍 Spark 应 用 涉及 的 一 些 基 本 概念 : 

1) SparkContext: Spark 应 用 程序 的 入 口 ， 负 责 调 度 各 个 运算 资源 ， 协 调 各 个 Worker Node 上 的 Executor。 

2) Driver Program: 运行 Application 的 main () 函数 并 创建 SparkContext。 


3) RDD: 前 面 已 经 讲 过 ，RDD 是 Spark 的 核心 数据 结构 ， 可 以 通过 一 系列 算 子 进行 操作 。 当 RDD 遇 到 Action 算 子 时 ， 将 之 前 的 所 有 算 子 形成 一 个 有 向 无 环 图 (DAG) 。 再 在 Spark 中 转化 为 Job (Job 
的 概念 在 后 面 讲述 ) ， 提 交 到 集群 执行 。 一 个 App 中 可 以 包含 多 个 Job。 

4) Worker Node: 集群 中 任何 可 以 运行 Application 代 码 的 节点 ， 运 行 一 个 或 多 个 Executor 进 程 。 

5) Executor: 为 Application 运 行 在 Worker Node 上 的 一 个 进程 ， 该 进程 负责 运行 Task， 并 且 负 责 将 数据 存在 内 存 或 者 磁盘 上 。 每 个 Application 都 会 申请 各 自 的 Executor 来 处 理 任务 。 

下 面 介绍 Spark 应 用 (Application) 执行 过 程 中 各 个 组 件 的 概念 : 


1) Task (任务 ) : RDD 中 的 一 个 分 区 对 应 一 个 Task，Task 是 单个 分 多 上 最 小 的 处 理 流程 单元 。 


2) TaskSet (任务 集 ) : 一 组 关联 的 ,但 相互 之 间 没 有 Shuffle 依 赖 关系 的 Task 集 合 。 

3) Stage (调度 阶段 ) : 一 个 TaskSet 对 应 的 调度 阶段 。 每 个 Job 会 根据 RDD 的 宽 依 赖 关 系 被 切 分 很 多 Stage， 每 个 Stage 都 包含 一 个 TaskSet。 
4) Job (作业 ) : 由 Action 算 子 触发 生成 的 由 一 个 或 多 个 Stage 组 成 的 计算 作业 。 

5) Application: 用 户 编写 的 Spark 的 应 用 程序 ， 由 一 个 或 多 个 Job 组 成 。 提 交 到 Spark 之 后 ，Spark 为 Application 分 配 资源 ， 将 程序 转换 并 执行 。 
6) DAGScheduler: 根据 Job 构 建 基 于 Stage 的 DAG， 并 提交 Stage 给 TaskScheduler。 

7) TaskScheduler: 将 Taskset 提 交 给 Worker Node 集 群 运行 并 返回 结果 。 


以 上 基本 概念 之 间 的 关系 如 图 3-1 所 示 。 


3.1.2 ”Spark 应 用 执行 机 制 概 要 


Spark Application 从 提交 后 到 在 Worker Node 执 行 ， 期 间 经 历 了 一 系列 变换 ， 具 体 过 程 如 图 3-2 所 示 。 
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图 3-1 Spatk 基 本 概念 之 间 的 关系 
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图 3-2 ”Spakk 执 行 流程 
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如 图 3-2 所 示 ， 前 面 讲 过 ， 当 RDD 遇 见 Action 算 子 之 后 ， 触 发 Job 提 交 。 提 交 后 的 Job 在 Spark 中 形成 了 RDD DAG 有 向 无 环 图 (Directed Acyclic Graph) 。RDD DAG 经 过 DAG Scheduler 调 度 之 后 ， 
根据 RDD 依 赖 关系 被 切 分 为 一 系列 的 Stage。 每 个 Stage 包含 一 组 task 集 合 ， 再 经 过 Task Scheduler 之 后 ，task 被 分 配 到 Worker 节 点 上 的 ExecutoI 线 程 池 执行 。 如 前 文 所 述 ，RDD 中 的 每 一 个 逻辑 分 区 对 应 
一 个 物理 的 数据 块 ， 同 时 每 个 分 区 对 应 一 个 Task， 因 此 Task 也 有 自己 对 应 的 物理 数据 块 ， 使 用 用 户 定义 的 函数 来 处 理 。Spark 出 于 节约 内 存 的 考虑 ， 采 用 了 延迟 执行 的 策略 ， 如 前 文 所 述 ， 只 有 Action 算 子 


才 可 以 触发 整个 操作 序列 的 执行 。 另 外 ，spark 对 于 中 间 计 算 结果 也 不 会 重新 分 配 内 存 ， 而 是 在 同一 个 数据 块 上 流水 线 操作 。 


spark 使 用 BlockManager 管 理 数据 块 ， 在 内 存 或 者 磁盘 进行 存储 ， 如 果 数 据 不 在 本 节点 ， 则 还 可 以 通过 远 端 节点 复制 到 本 机 进行 计算 。 在 计算 时 ，spark 会 在 具体 执行 计算 的 Worker 节 点 的 Executor 


中 创建 线程 池 ，Executor 将 需要 执行 的 任务 通过 线程 池 来 并 发 执行 。 


3.1.3 ”应 用 提交 与 执行 


Spark 使 用 Driver 进 程 负责 应 用 的 解析 、 切 分 Stage 并 调度 Task 到 Executor 执 行 ， 包 含 DAGScheduler 等 重要 对 象 。 Driver 进 程 


1) Driver 进 程 运行 在 Client 端 ， 对 应 用 进行 管理 监控 。 

2) Master 节 点 指定 某 个 Worker 节 点 启动 Driver 进 程 ， 负 责 监 控 整 个 应 用 的 执行 。 
针对 这 两 种 情况 ， 应 用 提交 及 执行 过 程 分 别 如 下 : 

1.Driver 运 行 在 Client 

用 户 启 动 Client 端 ， 在 Client 端 启动 Driver 进 程 。 在 Driver 中 启动 或 实例 化 DAGS-cheduler 等 组 件 。 
1) Driver 向 Master 注 册 。 

2) Worker 向 Master 注 册 ，Master 通 过 指令 让 Worker 启 动 Executor。 


3) Worker 通 过 创建 ExecutorRunner 线 程 ， 进 而 ExecutorRunner 线 程 启动 Executor-Backend 进 程 。 


4) ExecutorBackend 启 动 后 ， 向 Client 端 Driver 进 程 内 的 SchedulerBackend 注 册 ， 因 此 Driver 进 程 就 可 以 发 现 计 算 资 源 。 
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运 傈 


地 点 有 如 下 两 种 : 


5) Driver 的 DAGScheduler 解 析 应 用 中 的 RDD DAG 并 生成 相应 的 Stage， 每 个 Stage 包 含 的 TaskSet 通 过 TaskScheduler 分 配给 Executor。 在 Executor 内 部 启动 线程 池 并 行 化 执行 Task。 


2.Driver 运 行 在 Worker 节 点 


用 户 启动 客户 端 ， 客 户 端 提 交 应 用 程序 给 Master。 


1) Master 调度 应 用 ， 指 定 一 个 Worker 节 点 启动 Driver， 即 Scheduler-Backend。 

2) Worker 接 收 到 Master 命 令 后 创建 DriverRunner 线 程 ， 在 DriverRunner 线 程 内 创建 SchedulerBackend 进 程 。Driver 充 当 整 个 作业 的 主 控 进 程 。 
3) Master 指 定 其 他 Worker 节 点 启动 Exeuctor， 此 处 流程 和 上 面相 似 ，Worker 创 建 ExecutorRunner 线 程 ， 启 动 ExecutorBackend 进 程 。 

4) ExecutorBackend 启 动 后 ， 向 Driver 的 SchedulerBackend 注 册 ， 这 样 Driver 获 取 了 计算 资源 就 可 以 调度 和 将 任务 分 发 到 计算 节点 执行 。 


SchedulerBackend 进 程 中 包含 DAGScheduler， 它 会 根据 RDD 的 DAG 切 分 Stage， 生 成 TaskSet， 并 调度 和 分 发 Task 到 Executor。 对 于 每 个 stage 的 TaskSet， 都 会 被 存放 到 TaskScheduler 中 。 
Taskscheduler 将 任务 分 发 到 Executor， 执 行 多 线程 并 行 任务 。 


图 3-3 为 Spark 应 用 的 提交 与 执行 示意 图 。 
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图 3-3 ”Spatk 应 用 的 提交 与 执行 


3.2 Spark 调度 机 制 


Spark 调 度 机 制 是 保证 Spark 应 用 高 效 执行 的 关键 。 本 节 从 Application、job、stage 和 task 的 维度 ， 从 上 层 到 底层 来 一 步 一 步 揭示 Spark 的 调度 策略 。 


3.2.1 Application 的 调度 


Spark 中 ， 每 个 Application 对 应 一 个 SparkContext。SparkContext 之 间 的 调度 关系 取决 于 Spark 的 运行 模式 。 对 Standalone 模 式 而 言 ，Spark Master 节 点 先 计 算 集 群 内 的 计算 资源 能 否 满足 等 待 队列 
中 的 应 用 对 内 存 和 CPU 资源 的 需求 ， 如 果 可 以 ， 则 Master 创 建 Spark Driver， 启 动 应 用 的 执行 。 宏 观 上 来 讲 ， 这 种 对 应 用 的 调度 类 似 于 FIFO 策 略 。 在 Mesos 和 YARN 模 式 下 ， 底 层 的 资源 调度 系统 的 调度 策 
略 都 是 由 Mesos 和 YARN 决 定 的 。 具 体 分 类 描述 如 下 : 


1.Standalone 模 式 


默认 以 用 户 提交 Application 的 顺序 来 调度 ， 即 FIFO 策 略 。 每 个 应 用 执行 时 独占 所 有 资源 。 如 果 有 多 个 用 户 要 共享 集群 资源 ， 则 可 以 使 用 参数 spark.cores.max 来 配置 应 用 在 集群 中 可 以 使 用 的 最 大 CPU 
核 数 。 如 果 不 配 置 ， 则 采用 默认 参数 spark.deploy.defaultCore 的 值 来 确定 。 


2.Mesos 模 式 


如 果 在 Mesos 上 运行 Spark， 用 户 想 要 静态 配置 资源 的 话 ， 可 以 设置 spark.mesos.coarse 为 true， 这 样 Mesos 变 为 粗 粒 度 调度 模式 ， 然 后 可 以 设置 spark.cores.max 指 定 集 群 中 可 以 使 用 的 最 大 核 数 ， 与 
上 面 的 Standalone 模 式 类 似 。 同 时 ， 在 Mesos 模 式 下 ， 用 户 还 可 以 设置 参数 spark.executor.memory 来 配置 每 个 executor 的 内 存 使 用 量 。 如 果 想 使 Mesos 在 细 粒 度 模式 下 运行 ， 可 以 通过 mesos: //<url- 
info> 设 置 动态 共享 cpu core 的 执行 模式 。 在 这 种 模式 下 ， 应 用 不 执行 时 的 空间 CPU 资 源 得 以 被 其 他 用 户 使 用 ， 提 升 了 CPU 使 用 率 。 


3.YARN 模 式 


如 果 在 YARN 上 运行 Spark， 用 户 可 以 在 YARN 的 客户 端 上 设置 --num-executors 来 控制 为 应 用 分 配 的 Executor 数 量 ， 然 后 设置 --executor-memory 指 定 每 个 Executor 的 内 存 大 小 ， 设 置 --executor- 
cores 指 定 Executor 占 用 的 CPU 核 数 。 


3.2.2 job 的 调度 


前 面 章 节 提 到 过 ，Spark 应 用 程序 实际 上 是 一 系列 对 RDD 的 操作 ， 这 些 操 作 直 人 至 遇见 Action 算 子 ， 才 触发 Job 的 提交 。 事 实 上 ， 在 底层 实现 中 ，Action 算 子 最 后 调用 了 runJob 函 数 提交 Job 给 Spark。 其 
他 的 操作 只 是 生成 对 应 的 RDD 天 系 链 。 如 在 RDD.scala 程 序 文件 中 ，count 函 数 源码 所 示 。 








def count () : Long = sc.runuyob (this，ULils.getIteratorSize _) .Sum 





其 中 sc 为 SparkContext 的 对 象 。 可 见 在 Spark 中 ， 对 Job 的 提交 都 是 在 Action 算 子 中 隐 式 完成 的 ， 并 不 需要 用 户 显 式 地 提交 作业 。 在 SparkContext 中 Job 提 交 的 实现 中 ， 最 后 会 调用 DAGScheduler 中 
的 Job 提 交接 口 。DAGScheduler 最 重要 的 任务 之 一 就 是 计算 Job 与 Task 的 依赖 关系 ， 制 定 调度 逻辑 。 


Job 调 度 的 基本 工作 流程 如 图 3-4 所 示 ， 每 个 Job 从 提交 到 | 完成， 都 要 经 历 一 系列 步骤 ， 拆 分 成 以 Tsk 为 最 小 单位 ， 按 照 一 定 逻 辑 依赖 关系 的 执行 序列 。 
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图 3-4 Job 的 调度 流程 


图 3-5 则 从 Job 调 度 流程 中 的 细节 模块 出 友 ， 揭 示 了 工作 流程 与 对 应 模块 之 间 的 关系 。 从 整体 上 描述 了 各 个 类 在 Job 调 度 流程 中 的 交互 关系 。 
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图 3-5 ”Job 调度 流程 细节 
在 Spark1.5.0 的 调度 目录 下 的 SchedulingAlgorithm.scala 文 件 中 ， 描 述 了 Spark 对 Job 的 调度 模式 。 


1.FIFO 模 式 


默认 情况 下 ，Spark 对 Job 以 FIFO (先进 先 出 ) 的 模式 进行 调度 。 在 SchedulingAlgorithm.scala 文 件 中 声明 了 FIFO 算 法 实现 。 








private[spark] class FIFOSchedulingAlgorithm extends SchedulingAlgorithm { 
override def comparator(sl: Schedulable, s2: Schedulable): Boolean = { 
// 定 义 优先 级 
val priorityl] sl.priority 
val priority2 BZ Priority 
Var res = math.signum(priorityl] - priority2) 
if (res == 0) { 
val StagelIdl = 0 
val StageTQ2 = S2.stageId 
//signum 是 符号 函数 ,返回 0 (参数 等 于 0) 、1 (参数 大 于 0) 或 -1 (参数 小 于 0) 。 
2) 


res = math.signum(stagelIdl - stagelId 




































































} 

if (res < 0) { 
true 

} else { 

false 





} 


2.FAIR 模 式 
Spark 在 FAIR 的 模式 下 ， 采 用 轮 询 的 方式 为 多 个 Job 分 配 资源 ， 调 度 Job。 所 有 的 任务 优先 级 大 致 相同 ， 共 享 集群 计算 资源 。 具 体 实现 代码 在 SchedulingAlgorithm.scala 文 件 中 ， 声 明 如 下 : 


private[lspark] class FairSchedulingAlgorithm extends SchedulingAlgorithm { 
override def comparator(sl: Schedulable, s2: Schedulable): Boolean = { 

val minSharel = sl.minShare 

val minShare2 = s2.minShare 

val runningTasksl = sl.runningTasks 

val runningTasks2 = s2.runningTasks 

val slNeedy = runningTasksl < minSharel 

val s2Needy = runningTasks2 < minShare2 

val minShareRatiol = runningTasksl .toDouble / math.max (minSharel, 1.0) .toDouble 

val minShareRatio2 = runningTasks2.toDouble / math.max (minShare2, 1.0) .toDouble 

val taskToWeightRatiol = funningTasks1.toDouble / sl.weight.toDouble 

val taskToWeightRatio2 = runningTasks2.toDouble / s2.weight.toDouble 

Var compare: Int = 
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if (slNeedy && !s2Needy) { 
return true 

} se if (lslNeedy && s2Needy) 1 
eturn false 

} 

} 




















e@] 
多 
else if (slNeedy && s2Needy) { 

compare = minShareRatiol .compareTo (minShareRatio2) 
Ee] 

G@ 














lse { 
ompare = taskToWeightRatiol .compareTo (taskTowWeightRatio2) 





if (compare < 0) { 











true 

} else if (compare > 0) { 
false 

} else { 
sl.name < s2.name 





} 


3. 配 置 调度 池 


DAGScheduler 构 建 了 具有 依赖 关系 的 任务 集 。TaskScheduler 负 责 提 供 任务 给 Task-SetManager 作 为 调度 的 先决 条 件 。TaskSetManager 负 责 具 体 任务 集 内 部 的 调度 任务 。 调 度 池 (pool) 则 用 于 调 
度 每 个 SparkContext 运 行 时 并 存 的 多 个 互相 独立 无 依赖 关系 的 任务 集 。 调 度 池 负责 管理 下 一 级 的 调度 池 和 TaskSetManager 对 象 。 


用 户 可 以 通过 配置 文件 定义 调度 池 的 属性 。 一 般 调 度 池 支持 如 下 3 个 参数 : 
1) 调度 模式 Scheduling mode: 用 户 可 以 设置 FIFO 或 者 FAIR 调 度 方式 。 
2) weight: 调度 池 的 权重 ， 在 获取 集群 资源 上 权重 高 的 可 以 获取 多 个 资源 。 
3) minishare: 代表 计算 资源 中 的 CPU 核 数 。 


用 户 可 以 通过 conf/fairscheduler.xml 配 置 调度 池 的 属性 ， 同 时 要 在 SparkConf 对 象 中 配置 属性 。 


3.2.3 stage (调度 阶段 ) 和 TasksetManager 的 调度 


1.Stage 划 分 


当 一 个 Job 被 提交 后 ，DAGScheduler 会 从 RDD 依 赖 链 的 末端 触发 ， 遍 历 整 个 RDD 依 赖 链 ， 划 分 stage (调度 阶段 ) 。 划 分 依据 主要 基于 ShuffleDependency 依 赖 关 系 。 换 句 话说 ， 当 某 RDD 在 计算 中 
需要 将 数据 进行 Shuffle 操 作 时 ， 这 个 包含 Shuffle 操 作 的 RDD 将 会 被 用 来 作为 输入 信息 ， 构 成 一 个 新 的 Stage。 以 这 个 基准 作为 划分 Stage， 可 以 保证 存在 依赖 关系 的 数据 按照 正确 数据 得 到 处 理 和 运算 。 在 
Spark1.5.0 的 源 代码 中 ，DAGScheduler.scala 中 的 getParentStages 函 数 的 实现 从 一 定 角度 揭示 了 Stage 的 划分 逻辑 。 


大 类 


I 









































a def getParentStages (rdd: RDD[ ], firstJobId: Int) : List[Stage] = { 
val parents = new HashSet [Stagel 
val visited = new HashSet [RDD[ ]] 
// We are manually maintaining a stack here to prevent StackOverflowError 
// caused by recursively visiting 
val waitingForVisit = new Stack[RDD[ ]] 
def visit(r: RDD[ ]) { 

if (lvisited(r)) { 

visited += 工 
// Kind ee ugly: need to register RDDs with the cache here since 
// we can't do it in its constructor because # of partitions is unknown 
/* 遍历 RDD 的 依赖 链 */ 
for (dep <- r.dependencies) { 
dep match { 








































































































/* 如 果 遇 见 ShuffleDependency， 则 依据 此 依赖 关系 划分 Stage， 并 添加 该 Stage 的 父 Stage 到 喻 希 列表 中 */ 












































case shufDep: ShuffleDependency[ ， , | => 
parents += getShuffleMapStage (shufDep, firstJobIg) 
Case => 


waitingForVisit.push (dep.rdqd) 


2.Stage 调 度 
在 第 一 步 的 Stage 划 分 过 程 中 ， 会 产生 一 个 或 者 多 个 互相 关联 的 Stage。 其 中 ， 真 正 执行 Action 算 子 的 RDD 所 在 的 Stage 被 称 为 Final Stage。DAGScheduler 会 从 这 个 final stage 生 成 作业 实例 。 
在 Stage 提 交 时 ，DAGScheduler 首 先 会 判断 该 Stage 的 父 Stage 的 执行 结果 是 否 可 用 。 如 果 所 有 父 Stage 的 执行 结果 都 可 用 ， 则 提交 该 Stage。 如 果 有 任意 一 个 父 Stage 的 结果 不 可 用 ， 则 尝试 迭代 提交 


该 父 Stage。 所 有 结果 不 可 用 的 Stage 都 将 会 被 加 入 waiting 队 列 ， 等 待 执行 ， 如 图 3-6 所 示 。 


ee 





画 画 画 画 画 画 画 面 画 硬 机 而 机 而 画 画 画 画 画 画 画 画 画 画 画 画 


而 画 画 画 画 画 画 
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图 3-6 ”Stage 依 赖 
在 图 3-6 中 ， 虚 箭头 表示 依赖 关 系 。Sstage 序 号 越 小 ， 表 示 Stage 越 靠近 上 游 。 


图 3-6 中 的 Stage 调度 运行 顺序 如 图 3-7 所 示 。 
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图 3-7 ”Stage 执 行 顺序 





从 图 3-7 可 以 看 出 ， 上 游 父 Stage 先 得 到 执行 ，waiting queue 中 的 stage 随 后 得 到 执行 。 
3.TasksetManager 
每 个 Stage 的 提交 会 被 转化 为 一 组 task 的 提交 。DAGScheduler 最 终 通 过 调用 taskscheduler 的 接口 来 提交 这 组 任务 。 在 taskScheduler 内 部 实现 中 创建 了 taskSetManager 实 例 来 管理 任务 集 taskSet 的 


生命 周期 。 事 实 上 可 以 说 每 个 stage 对 应 一 个 tasksetmanager。 至 此 ，DAGScheduler 的 工作 基本 完毕 。taskScheduler 在 得 到 集群 计算 资源 时 ，taskSet-Manager 会 分 配 task 到 具体 worker 节 点 上 执行 。 
在 Spark1.5.0 的 taskSchedulerImpl.scala 文 件 中 ， 提 交 task 的 函数 实现 如 下 : 





override def submitTasks (taskSet: TaskSet) { 
val tasks = taskSet.tasks 
logInfo("Adding task set "+ taskSet.id + " with " + tasks.length + " tasks") 
this.synchronized { 
/* 创 建 TaskSetManager 实 例 以 管理 stage 包 含 的 任务 集 */ 
val manager = createTaskSetManager (taskSet, maxTaskFailures) 
val stage = taskSet.stagelId 
val stageTaskSets = 




























































































taskSetsByStageldAndAttempt .getOrElseUpdate (stage, new HashMaplInt, TaskSetManager]) 
stageTaskSets (taskSet.stageAttemptId) = manager 
val conflictingTaskSet = stageTaskSets.exists { case ( , ts) => 

ts.taskSet != taskSet && !ts.isZombie 











} 
if (conflictingTaskSet) { 

throw new IllegalStateException(s"more than one active taskSet for stage S$stage:" + 
s" ${stageTaskSets.toSeq.map{ . 2.taskSet.id} .mkString(",")}") 












































} 
/* 将 TaskSetManager 添 加 到 全 局 的 调度 队列 */ 


schedulableBuilder.addTaskSetManager (manager, manager.taskSet.properties) 














if (!lisLocal && !IhasReceivedTask) { 
starvationTimer.scheduleAtFixedRate (new TimerTask() { 
override def run() { 
if (lhasLaunchedTask) { 
logWarning ("Initial job has not accepted any resources; "+ 
"check your cluster UI to ensure that workers are registered "+ 
































"angd have sufficient resources") 
} else { 
this.cancel () 





} 


} 
}, STARVATION TIMEOUT MS, STARVATION T 
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EOUT MS) 
} 


hasReceivedTask = true 
} 


backend.reviveOffers () 


} 

















当 taskSetManager 进 入 到 调度 池 中 时 ， 会 依据 job id 对 taskSetManager 排 序 ， 和 总 体 上 先进 入 的 taskSetManager 先 得 到 调度 。 对 于 同一 job 内 的 taskSetManager 而 言 ，job id 较 小 的 先 得 到 调度 。 如 
果 有 的 taskSetManager 父 Stage 还 未 执行 完 ， 则 该 taskSet-Manager 不 会 被 放 到 调度 池 。 


3.2.4 ”task 的 调度 


在 DAGscheduler.scala 中 ， 定 义 了 函数 submitMissingTasks， 读 者 阅读 完整 实现 ， 从 中 可 以 看 到 task 的 调度 方式 。 限 于 篇 幅 ， 以 下 截取 部 分 代码 。 




















private def submitMissingTasks (stage: Stage, jobId: Int) { 
logDebug ("submitMissingTasks(" + stage + ")") 
// Get our pending tasks and remember them in our pendingTasks entry 
stage.pendingTasks.clear () 

















// First figure out the indexes of partition ids to compute. 
/* 过 滤 出 计算 位 置 ， 用 以 执行 计算 */ 
val (allPartitions: Seq[lInt], partitionsToCompute: Seqgq[lInt]) = { 
stage match { 
/* 针 对 shuffleMap 类 型 的 Stage*/ 
case stage: ShuffleMapStage => 
val allPartitions = 0 until stage.numPartitions 
val filteredPartitions = allPartitions.filter { id => stage.outputLocs (1dq) .isEmpty } 
































































































































(allPartitions, filteredPartitions) 
/* 针 对 Result 类 型 的 Stage*/ 
case stage: ResultStage => 
val job = stage.resultOfJob.get 
val allPartitions = 0 until job.numPartitions 
val filteredPartitions = allPartitions.filter { id => ! job.finished(id) } 
(allPartitions, filteredPartitions) 
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/* 获 取 task 执 行 的 优先 节点 */ 

private[spark] 

def getPreferredLocs (rdd: RDD[ ], partition: Int) : Seq[lTaskLocation] = { 
getPreferredLocsInternal (rdd, partition, new HashSet) 


} 






































计算 task 执 行 的 优先 节点 位 置 的 代码 实现 在 getPreferredLocslnternal 函 数 中 ， 有 具体 如 下 : 














/* 计 算 位 置 的 递归 实现 */ 
private def getPreferredLocsInternal( 
rdd: RDD[ ]， 

partition: Int, 
visited: HashSet[ (RDD[ ], Int)]): Seq[lTaskLocation] = { 

// If the partition has already been visited, no need to re-visit. 

// This avoids exponential path exploration. SPARK-695 

if (lvisited.add((rdd, partition))) { 
// Nil has already been returned for previously visited partitions. 
return Nil 


} 
// 如 果 调 用 cache 组 存 过 ， 则 计算 缓存 位 置 ， 读 取 缓 存 分 区 中 的 数据 
val cached = getCacheLocs (rdd) (partition) 
if (cached.nonEempty) { 
return cached 


} 

// 如 果 能 直接 获取 到 执行 地 点 ， 则 返回 作为 该 task 的 执行 地 点 

val rddPrefs = rdd.preferredLocations (rdd.partitions (Partition) ) .toList 
f (rddPrefs.nonEmpty) { 

return rddPrefs.map (TaskLocation( )) 
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} 
/* 针 对 窜 依 赖 关 系 的 RDD， 取 出 第 一 个 窜 依 赖 的 父 RDD 分 区 的 执行 地 点 */ 


rdd.dependencies.foreach { 

case n: NarrowDependency|[ ] => 
for (inPart <- n.getParents (partition)) { 

val locs = getPreferredLocsIinternal (n.rdd, inPart, visited) 


if (locs != Nil) { 
return locs 




































































/* 对 于 shuffle 依 赖 的 rqd， 选 取 至 少 含 REDUCER PREF LOCS FRACTION 这 么 多 数据 的 位 置 作为 优先 节点 */ 

if (shuffleLocalityEnabled && rdd.partitions.length < SHUFFLE PREF REDUCE THRESHOLD) { 
rdd.dependencies.foreach { 

case s: ShuffleDependency[ ， , |] => 

f (s.rdd.partitions.length < SHUFFLE PREF MAP THRESHOLD) { 

// Get the preferred map output locations for this reducer 

val topLocsForReducer = mapOutputTracker.getLocationsWithLargestOu-tputs(s.shufflelgd, 
partition, rdd.partitions.length, REDUCER PREF LOCS FRACTION) 

if (topLocsForReducer.nonEmpty) { 
return topLocsForReducer.get.map (loc => TaskLocation (loc.host, loc.executorId)) 




































































Ede 


























































































































3.3 Spark 存储 与 |/O 


前 面 已 经 讲 过 ，RDD 是 按照 partition 分 区 划分 的 ， 所 以 RDD 可 以 看 作 由 一 些 分 布 在 不 同 节点 上 的 分 区 组 成 。 由 于 partition 分 区 与 数据 块 是 一 一 对 应 的 ， 所 以 RDD 中 保存 了 partition1D 与 物理 数据 块 之 间 
的 映射 。 物 理 数据 块 并 非 都 保存 在 磁盘 上 ， 也 有 可 能 保存 在 内 存 中 。 


3.3.1 _ Spark 存储 系统 概览 


Spark MO 机 制 可 以 分 为 两 个 层次 : 
1) 通信 层 : 用 于 Master 与 Slave 之 间 传 递 控制 指令 、 状 态 等 信息 ， 通 信 层 在 架构 上 也 采用 Master-Slave 结 构 。 
2) 存储 层 : 同 于 保存 数据 块 到 内 存 、 磁 盘 ， 或 远 端 复制 数据 块 。 
下 面 介 绍 几 个 Spark 存 储 方面 的 功能 模块 。 
1) BlockManager: spark 提 供 操作 storage 的 统一 接口 类 。 


2 


— 


BlockManagerMasterActor: Master 创 建 ，Slave 利 用 该 模块 向 Master 传 递 信 息 。 


3) BlockManagerSlaveActor: Slave 创 建 ，Master 利 用 该 模块 向 Slave 节 点 传递 控制 命令 ， 控 制 Slave 节 点 对 block 的 读 写 。 


4 


BlockManagerMaster: 管理 Actor 通 信 。 


5) DiskStore: 支持 以 文件 方式 读 写 的 方式 操作 block。 
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— 


MemoryStore: 支持 内 存 中 的 block 读 写 。 


7) BlockManagerWorker: 对 远 端 异步 传输 进行 管理 。 


8) ConnectionManager: 支持 本 地 节点 与 远 端 节 点 数据 block 的 传输 。 


图 3-8 概 要 性 地 揭示 了 Spark 人 存储 系统 各 个 主要 模块 之 间 的 通信 。 
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图 3-8 ”Spatk 存 储 系统 概览 


3.3.2 ”BlockManager 中 的 通信 

存储 系统 的 通信 仍然 类 似 Master-slave 架 构 ， 节 点 之 间 传 递 命令 与 状态 。 总 体 而 言 ，Master 向 Slave 传 递 命令 ，slave 向 Master 传 递 信息 和 状态 。 这 些 Master 与 slave 节 点 之 间 的 信息 传递 通过 Actor 对 
象 实现 (关于 Actor 的 详细 功能 会 在 下 一 节 Spark 通 信 机 制 中 讲述 ) 。 但 在 BlockManager 中 略 有 不 同 ， 下 面 分 别 讲述 。 

1) Master 节 点 上 的 BlockManagerMaster 包 含 内 容 如 下 : 

QBlockManagerMasterActor 的 Actor 引 用 。 

Q@BlockManagerSlaveActor 的 Ref 引 用 。 

2) Slave 节 点 上 的 BlockManagerMaster 包 含 内 容 如 下 : 

DBlockManagerMasterActor 的 Ref 引 用 。 

Q@BlockManagerSlaveActor 的 Actor 引 用 。 


其 中 ， 在 Ref 与 Actor 之 间 的 通信 由 BlockManagerMasterActor 和 BlockManagerslave-Actor 完 成 。 这 个 部 分 相关 的 源码 篇 幅 较 多 ， 此 处 省 略 ， 感 兴趣 的 读者 请 自行 研究 。 


3.4 _ Spark 通信 机 制 


前 面 介绍 过 ，Spark 的 部 署 模式 可 以 分 为 local、standalone、Mesos、YARN 等 。 


本 节 以 Spark 部 署 在 standalone 模 式 下 为 例 ， 介 绍 Spark 的 通信 机 制 (其 他 模式 类 似 ) 。 


3.4.1 ”分布 式 通信 方式 


先 介绍 分 布 式 通信 的 几 种 基本 方式 .。 

1.RPC 

远程 过 程 调 用 协议 (Remote Procedure Call Protocol，RPC) 是 一 种 通过 网 络 从 远程 计算 机 程序 上 请 求 服务 ， 而 不 需要 了 解 底层 网 络 技术 的 协议 。RPC 假 定 某 些 传输 协议 的 存在 ， 如 TCP 或 UDP,， 为 
信 程序 之 间 携 带 信息 数据 。 在 OSI 网 络 通 信 模 型 中 ，RPC 跨 越 了 传输 层 和 应 用 层 。RPC 使 得 开发 分 布 式 应 用 更 加 容易 。RPC 采 用 C/S 架 构 。 请 求 程序 就 是 一 个 Client， 而 服务 提供 程序 就 是 一 个 Server。 首 
，Client 调 用 进程 发 送 一 个 有 进程 参数 的 调用 信息 到 Service 进 程 ， 然 后 等 待 应 答 信息 。 在 Server 端 ， 进 程 保持 睡眠 状态 直到 调用 信息 到 达 为 止 。 当 一 个 调用 信息 到 达 时 ，Server 获 得 进程 参数 ， 计 算 结 
， 发 送 答复 信息 ， 然 后 等 待 下 一 个 调用 信息 ， 最 后 ，Client 调 用 进程 接收 答复 信息 ， 获 得 进程 结果 ， 然 后 调用 执行 继续 进行 。 
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EE 


站 中 


2.RM| 


远程 方法 调用 (Remote Method Invocation，RMI) 是 Java 的 一 组 拥护 开发 分 布 式 应 用 程序 的 API。RMI 使 用 Java 语 言 接口 定义 了 远程 对 象 ， 它 集合 了 Java 序 列 化 和 java 远程 方法 协议 (Java Remote 
Method Protocol) 。 简 单 地 说 ， 这 样 使 原先 的 程序 在 同一 操作 系统 的 方法 调用 ， 变 成 了 不 同 操作 系统 之 间 程 序 的 方法 调用 。 由 于 J2EE 是 分 布 式 程序 平台 ， 它 以 RMI 机 制 实现 程序 组 件 在 不 同 操作 系统 之 间 
的 通信 。 比 如 ， 一 个 EJB 可 以 通过 RMI 调 用 Web 上 另 一 台 机 器 上 的 EJB 远 程 方法 。RMI 可 以 被 看 作 是 RPC 的 Java 版 本 ， 但 是 传统 RPC 并 不 能 很 好 地 应 用 于 分 布 式 对 象 系统 。Java RM| 则 支持 存储 于 不 同 地 址 空 
间 的 程序 级 对 象 之 间 彼 此 进行 通信 ， 实 现 远程 对 象 之 间 的 无 颖 远程 调用 。 


3.JMS 


Java 消 息 服务 (Java Message Service，JMS) 是 一 个 与 具体 平台 无 关 的 APl， 用 来 访问 消息 收发 。JMS 使 用 户 能 够 通过 消息 收发 服务 (有 时 称 为 消息 中 介 程 序 或 路 由 器 ) 从 一 个 JMS 客 户 机 向 另 一 个 
JMS 客 户 机 发 送 消 息 。 消 息 是 JMS 中 的 一 种 类 型 对 象 ， 由 两 部 分 组 成 : 报头 和 消息 主体 。 报 头 由 路 由 信息 以 及 有 关 该 消息 的 元 数据 组 成 。 消 息 主体 则 携带 着 应 用 程序 的 数据 或 有 效 负载 。JMS 定 义 了 5 种 消息 
正文 格式 ， 以 及 调用 的 消息 类 型 ， 允 许 发 送 并 接收 以 一 些 不 同形 式 的 数据 ， 提 供 现 有 消息 格式 的 一 些 级 别 的 兼容 性 。 


:StteamMessage: Java 原 始 值 的 数据 流 。 
.MapMessage: 一 套 名 称 - 值 对 。 

. TextMessage: 一 个 字符 串 对 象 。 

. ObjectMessapge: 一 个 序列 化 的 Java 对 象 。 

. BytesMessage; 一 个 未 解释 字 节 的 数据 流 。 
4.EJB 


JavaEE 服 务 器 端 组 件 模 型 (Enterprise JavaBean，EJB) 的 设计 目标 是 部 署 分 布 式 应 用 程序 。 简 单 来 说 就 是 把 已 经 编写 好 的 程序 打包 放 在 服务 器 上 执行 。EJB 定 义 了 一 个 用 于 开发 基于 组 件 的 企业 多 重 
应 用 程序 的 标准 。EJB 的 核心 是 会 话 Bean (Session Bean) 、 实 体 Bean (Entity Bean) 和 消息 驱动 Bean (Message Driven Bean) 。 


5.Web Service 


Web Service 是 一 个 平台 独立 的 、 低 未 合 的 、 自 包含 的 、 基 于 可 编程 的 Web 应 用 程序 。 可 以 使 用 开放 的 XML (标准 通用 标记 语言 下 的 一 个 子 集 ) 标准 来 描述 、 发 布 、 发 现 、 协 调和 配置 这 些 应 用 程序 ， 
用 于 开发 分 布 式 的 应 用 程序 。Web Service 技 术 能 使 得 运行 在 不 同 机 器 上 的 不 同 应 用 无 须 借助 第 三 方 软 硬 件 ， 就 可 相互 交换 数据 或 集成 。Web Service 减 少 了 应 用 接口 的 花费 。Web Service 为 整个 企业 甚至 
多 个 组 织 之 间 的 业务 流程 的 集成 提供 了 一 个 通用 机 制 |。 


3.4.2 ”通信 和 E 架 AKKA 


AKKA 是 一 个 用 Scala 语 言 编写 的 库 ， 用 于 简化 编写 容错 的 、 高 可 伸缩 性 的 Java 和 Scala 的 Actor 模 型 应 用 。 它 分 为 开发 库 和 运行 环境 ， 可 以 用 于 构建 高 并 发 、 分 布 式 、 可 容错 、 事 件 驱 动 的 基于 JVM 的 应 
用 。AKKA 使 构建 高 并 发 的 分 布 式 应 用 变 得 更 加 容易 。Akka 已 经 被 成 功 运用 在 众多 行业 的 众多 大 企业 ， 从 投资 业 到 商业 银行 、 从 零售 业 到 社会 媒体 、 仿 真 、 游 戏 和 赌博 、 汽 车 和 交通 系统 、 数 据 分 析 等 。 任 
何 需要 高 吞吐 率 和 低 延 迟 的 系统 都 是 使 用 AKKA 的 候选 ， 因 此 spark 选 择 AKKA 通 信 框 架 来 支持 模块 间 的 通信 。 


Actor 模 型 常见 于 并 发 编程 ， 它 由 Carl Hewitt 于 20 世 纪 70 年 代 早期 提出 ， 目 的 是 解决 分 布 式 编程 中 的 一 系列 问题 。 其 特点 如 下 : 
1) 系统 中 的 所 有 事物 都 可 以 扮演 一 个 Actor。 

2) Actor 之 间 完 全 独立 。 

3) 在 收 到 消息 时 Actor 采 取 的 所 有 动作 都 是 并 行 的 。 

4) Actor 有 标识 和 对 当前 行为 的 描述 。 


Actor 可 以 看 作 是 一 个 个 独立 的 实体 ， 它 们 之 间 是 毫 无 关联 的 。 但 是 ， 它 们 可 以 通过 消息 来 通信 。 当 一 个 Actor 收 到 其 他 Actor 的 信息 后 ， 它 可 以 根据 需要 做 出 各 种 响应 。 消 息 的 类 型 和 内 容 都 可 以 是 任 
意 的 。 这 点 与 Web service 类 似 ， 只 提供 接口 服务 ， 不 必 了 解 内 部 实现 。 一 个 Actor 在 处 理 多 个 Actor 的 请 求 时 ， 通 常 先 建立 一 个 消息 队列 ， 每 次 收 到 消息 后 ， 就 放 入 队列 。Actor 每 次 也 可 以 从 队列 中 取出 消 
息 体 来 处 理 ， 而 且 这 个 过 程 是 可 循环 的 ， 这 个 特点 让 Actor 可 以 时 刻 处 理发 送 来 的 消息 。 


AKKA 的 优势 如 下 : 
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小 -一 


易于 构建 并 行 与 分 布 式 应 用 (simple concurrency&distribution) : AKKA 采 用 异步 通信 与 分 布 式 架构 ， 并 对 上 层 进 行 抽象 ， 如 Actors、Futures、STM 等 。 


2 


-一 


可 靠 性 (resilient by design) : 系统 具备 自 愈 能 力 ， 在 本 地 /远程 都 有 监护 ， 


3 


— 


高 性 能 (high performance) : 在 单机 中 每 秒 可 发 送 5000 万 个 消息 。 内 存 占用 小 ，1GB 内 存 中 可 保存 250 万 个 actors。 


4) 弹性 ， 无 中 心 (elastic 一 decentralized) : 自 适 应 的 负责 均衡 、 路 由 、 分 区 、 配 置 。 


— 


5) 可 扩展 性 (extensible) : 可 以 使 用 Akka 扩 展 包 进行 扩展 。 


3.4.3 Client、Master 和 Worker 之 间 的 通信 


Client、Master 与 Worker 之 间 的 交互 代码 实现 位 于 如 下 路 径 : 





(spark-root) /core/src/main/scala/org/apache/spark/deploy 


主要 涉及 的 类 包括 Client.scala、Master.scala 和 Worker.scala。 这 三 大 模块 之 间 的 通信 框架 如 图 3-9 所 示 : 
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ExecutorStateChanged 


SubmitDriverResponse 












onStart 


图 3-9 ”Client、Master 和 Worker 之 间 的 通信 
以 Standalone 部 署 模 式 为 例 ， 三 大 模块 分 工 如 下 : 
1) Client: 提交 作业 给 Master。 
2) Master: 接收 Client 提 交 的 作业 ， 管 理 Worker， 并 命令 Worker 启 动 Driver 和 Executor。 
3) Worker: 负责 管理 本 节点 的 资源 ， 定 期 向 Master 汇 报 心跳 信息 ， 接 收 Master 的 命令 ， 如 启动 Driver 和 Executor,。 
下 面 列 出 Client、Master 与 Worker 的 实现 代码 ， 读 者 可 以 从 中 看 到 三 个 模块 间 的 通信 交互 。 


1.Client 端 通信 








private class ClientEndpoint 
override val rpcEnv: RpcEnyv, 
driverArgs: ClientArguments, 
masterEndpoints: Seq[lRpcEndpointRef], 
conf: SparkConf) 
extends ThreadSafeRpcEndpoint with Logging f{ 


< 限于 篇 幅 ， 此 处 代码 省 略 …. 


一 
























































override def onStart(): Unit = { 
driverArgs.cmd match { 


case "launch" => 




















val mainClass = "org.apache.spark.deploy.worker.DriverWrapper" 
val classPathConf = "spark.driver.extraClassPath" 
val classPathEntries = sys.props.get (classPathConf) .toSeqg.flatMap { cp => 























cp.split (java.io.File.pathSeparator) 








val libraryPathConf = "spark.driver.extraLibraryPath" 
val libraryPathEntries = sys.props.get (libraryPathConf) .toSeqg.flatMap { cp => 
cp.split (java.io.File.pathSeparator) 









































val extraJavaOptsConf = "spark.driver.extraJavaOptions" 
val extraJavaOpts = sys.props.get (extraJavaOptsConf) 
.map (Utils.splitCommandString) .getOrElse (Seqg.empty) 
val sparkJavaOpts = Utils.sparkJavaOpts (conf) 
val JavaOpts = sparkJavaOpts ++ extraJavaOpts 























val command = new Command (mainClass, 
Seq (" { {WORKER 


SySs .env, 





/* 创建 driver 





URI 





classPathEntries, libraryPath 





jj 








TY { {US] 





ER JAI 




















val driverDescription 





driverArgs.jJarUrl, 





driverArgs .memory, 
driverArgs.cores, 





driverArgs.supervise, 


commandgd) 


/* 此 处 向 Master 的 Actor 提 交 
ayncSendToMasterAndForwardl 








Description 对 象 */ 








Driver*/ 
Reply[SubmitDriverResponsel] ( 


new DriverDescription\( 


RequestSubmitDriver (driverDescription)) 


Case 























Entries, javaOpts) 








R}}", driverArgs.mainClass) ++ driverArgs.driverOptions, 











"kill" => 
val driverId = driverArgs.driverId 
/* 接收 停止 Driver 是 否 成 功 的 通知 */ 
ayncSendToMasterAndForwardReply[KillDriverResponse] (RequestKill-Driver (driverId)) 
并 异步 地 转发 返回 信息 给 Client */ 


/* 向 Master 发 送 消 息 ， 
private def ayncSendToMasterAndForwardi 
(masterEndpoint <- masterE 
masterEndpoint.ask[T] (message) .onComp] 
Case Success (v) 
Case Failure (e) 
logWarning (s" 








{OF 











Rep] 











=> self.se 
二 > 
Error sendi 











2.Master 端 通信 


forwardMessagel 


























n 


n 








Q(V) 


private[deploy] class Master ( 
override val rpcEnv: RpcEnv， 
address: RpcAgddress, 
webUiPort: Int, 
val securityMgr: SecurityManager, 
val conf: SparkConf) 














extends ThreadSsa 





feRpoa] 





dpoints) 


Endpoint with Logging with 
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lete { 





ng messages to master SmasteL] 
ExecutionContext) 








LeaderElectable { 


























































































































y[T: ClassTag] (message: Any): Unit = { 


Endpoint", e) 























self.send (CompleteRecovery) 


} 














M 








}, WORKER T 


} 
} 
/* 完成 恢复 


case Completel] 


Ky 



































LL 








ECONDS) 











Case RevokedLeadership => { 


logError("] 








System.exit 


} 





/* 注册 worker */ 
Case RegisterWorker\( 





id, workerHost, workerPort, workerRe 
Registering worker %s:%d with %d cores, 
tils.megabytesToString (memory) ) ) 


， 不 注册 */ 








logIni 





/* 当 状 态 为 RecoveryStat 
if (State == RecoveryState.sTAND 





1if 


fo (" 
workerHost, 


EOUT MS, TimeUnit.M 


Recovery => completeRecovery () 











workerpPort, 


cores, 








te .STANDBYH 


U 








// ignore, don't send response 












































override def receive: PartialFunction[Any, Unit] = { 

/* 选举 为 Master， 当 状态 为 RecoveryState .RECOVERING 时 恢复 */ 

case ElectedLeader => { 
val (storedApps, storedDrivers, storedWorkers) = persistencel 
state = if (storedApps.isEmpty && Ss 
RecoveryState .ALIVE 
} else { 
RecoveryState .RECOVERING 
} 
logInfo("I have been elected leader! New state: " + state) 
if (state == RecoveryState .RECOVERING) { 
beginRecovery (storedApps, storedDrivers, storedWorkers) 
recoveryCompletionTask = forwardMessageThread.schedule (new Runnable { 

override def run(): Unit = Utils.tryLogNonFatalError { 


'eadership has been revoked -- master shutting down.") 


(0) 








%Ss RAM".format( 








memory, 


} else if (idToWorker.contains (id)) { 

/* 重复 注册 ， 通 知 注册 失败 */ 
WOTKkerRef .send (RegisterWorkerFailed ("Duplicate worker ID") ) 

} else { 
val worker = new WorkerInfo (id, workerHost, workerPort, cores, 
workerRef, workerUiPort, publicAddress) 














1f 


(regis 





terWorker (worker)) { 


/* 注册 成 功 ， 通 知 worker 节 点 */ 


tencel 








persist 
workerRe 


Engine .addWorker (worker) 











f .send (RegisteredWorker (Sel]: 








schedule () 
} else { 





val workerAddress 
logWarning ("Worker registration 





/* 注册 失败 ， 通 知 Worker 节 点 */ 


workerRe 


} 


/* 通知 Executor 的 
ExecutorStateChanged (app] 








Case 





override def 





F .send (RegisterWorkerFail 








receiveAnd] 




















Driver 更 新 状态 */ 
[d, execI 








d, state, 


f, masterWebUiUr1)) 


worker .endpoint .address 
failed. Attempted to re-register worker at same " +"address: " 





ed ("Attempted to re-register worker at Same address: "+ 








case RequestSubmitDriver (description) => { 


/* 当 Master 状 态 不 为 AL] 











(S 
val 


lI 





tate != RecoverySs 
msg = s"${Utils. 
"Can only accepti 





tate.A 











PP) { 








[VE 的 时 候 ， 通 知 Client 无 法 提交 
LIV 
BACKUP STANDALON 








message, 


exitStatus) 


Reply (context: RpcCallContext): PartialFunction[Any, Unit] 


=> { 





Driver */ 

















RE MASTER PR 


EF 


Sstate. 





X}: 








VE 








上 driver submissions in AL 








Context .repLy(SubpmitDrivVeD] 


} else { 











logIn 


val driver = crea 











Response (self, 





persistencel 








waitingDrivers += driver 
drivers.add (driver) 
Schedule () 


日 和 和 


/* 提交 





context.reply (SubmitDriverResponse (self, 


} 
} 


Case RequestKillDriver (driver] 
if (state != RecoveryState.AL 
val msg = s"${Utils. 





1if 


Driver */ 





3] 














true, 














rq) 


=> { 








VE) 








BACKUP STANDALONE 


state.™" 
Se None, msg)) 


fo("Driver submitted " + description.command.mainClass) 
teDriver (description) 
Engine .addDriver (driver) 











MASTER PR 


EF 








X}: 





Some (driver.id), 


二 





Engine.readPersistedData (rpcEnv) 
toredDrivers.isEmpty && storedWorkers.isEmpty) 


{ 


f, cores, memory, workerUipPort, publicAddress) => 1 





+ workerAddress) 











s"Driver success 


$state. " + s"Can only kill drivers in AL 


workerAddress)) 


fully submitted as ${driver.id}")) 








V 





是 





state.™" 














































































































/* 当 Master 不 为 ALIVE 时 ， 通 知 无 法 终止 Driver */ 
context.reply (KillDriverResponse (self, driverld, success = false msd) ) 
} else { 
logInfo("Asked to kill driver " + driverId) 
val driver = drivers.find( .id == driverlId) 
driver match { 加 
case Some(d) => 
if (waitingDrivers.contains(d)) 1 
/* 当 想 kil11 的 Driver 在 等 待 队列 中 时 ， 删 除 Driver 并 更 新 状态 为 KILLED */ 
waitingDrivers -= d 
self.send (DriverStateChanged (driverId, DriverState.KILLED, None)) 


3.Worker 端 通 


private[deploy] 
override val 


web 
Geng 


memory : 


mas 
SYS 


endpojinit 





} else { 


/* 通知 worker,] 
d.worker .1 


} 
} 








foreach { w 
w.endpoint .send (Kil] 











=> 





Driver 被 终止 */ 


lDriver (driverI 




















qd)) 

















// TODO: It would be nice 
val msg = s"Kill request 
logInfo (msg) 





for th 





for Sd 





is to be a synchronous response 
iverId submitted" 











/* 通知 请 求 者 ， 终 止 Driver 的 请 求 已 提交 */ 


context.reply (KillDriverResponse (self 








case None 三 > 


val msg = s"Driver S$driver] 








lJogWarning (msg) 


/* 通知 请 求 者 ，] 


context.reply (KillDriverResponse (self 





Drivez 已 被 终 上 





[d has already 





driver] 








[d, Success = true, msd) ) 





finished or does not exist" 


或 不 存在 */ 








driverI 





SUCCESS 








言 逻辑 





TPC] 








UiPort: 
es: Int, 
Int 








temName: 








Trity 


了 


String, 


tName: String, 


workDirPath: String = 


Val 


conf: 





SparkConf 











Val 


securityMgr: 


了 





extends ThreadSafeRpdadl 


override def 








class Worker( 
Env: RPCPEnV， 





null, 


terRpcAddresses: ArraylRpcAddress], 


SecurityManager) 














/* 注册 worker */ 


Case RegisteredWorker (masterRef, masterWebUiUr1) 


Endpoint with ] 





d; false, msg)) 


r 


Ogging { 











/* 向 Master 发 送 心跳 */ 





case SendHeartbeat => 


正 理 





/* 清理 | 





日 





case WorkDirClean 
// Spin 
// rpcEndpoint. 
// Copy ids so that 
1 appIds 


Va 


(Con 


nected) 


的 工作 目 














应 

















val 





cleanupFut 


eXxXeCul 
LUTe 


{ sendToMaster (Heartbeat (worker] 


录 */ 


up => 
up a separate thread (in a 


receive: PartialFunction[Any, Unit] 





{ 


=> 





self 





ra ， 


~ 一 
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/* 新 Master 选 举 产 生 时 ，Work 更 新 Master 相 关 信息 ， 包 括 URI 等 */ 





case MasterChanged (masterRet 
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/* worker 同 主 节 点 注册 失败 */ 
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Ff, masterWebUiUrl) => 
fo ("Master has changed, new master is at " + masterRef.address.toSparkURL) 
Ff, masterWebUiUrl1) 


Error ("Worker registration 
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failed: " + message) 





log] 





System.exit (1) 
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/* worker 重 新 连接 向 Master 注 册 */ 


case ReconnectWorker (masterUr]) 
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logI 
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/* 启动 Executor */ 
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fo (S"Master with Url SmasterUrl requested this worker to reconnect.") 
sterWithMaster () 



























































case LaunchExecutor (masterUrl, applId, execId, appDesc, cores , memory ) => 
/* 启动 ExecutorRunner */ 
val manager = new ExecutorRunner( 
/* executor 状 态 改变 */ 
case executorStateChanged @ ExecutorStateChanged (appIdq，execIdq，Sstate message, exitStatus) => 
/* 通知 Master executor 状 态 改 变 */ 
handleExecutorStateChanged (executorStateChanged) 
/* 终止 当前 节点 上 运行 的 Executor */ 
case KillExecutor (masterUrl, applId, execId) => 
if (masterUrl != activeMasterUrl) { 
logWarning ("Invalid Master (" + masterUrl + ") attempted to launch executor " + execId) 
} else { 
val fullId = appIdq + "/" + execId 
executors.get (fullld) match { 
case Some (executor) => 
logInfo("Asked to kill executor " + fullId) 
executor.kill () 
case None 三 > 
logInfo("Asked to kill unknown executor " + fullId) 


/* 启动 Driver */ 





case LaunchDriver (driver] 








n1 














O 〇 


drive 


9 


Val driver 
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/* 启动 Driver */ 
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r.start 





上 worker 节 点 


rq) 


[d, driverDesc) => { 








= driver 


运行 的 Driver */ 





ll1Driver (driver] 





rd) 








logI 








drivers.get (driverI 
case Some (runner) 


=> { 


fo (s"Asked to launch driver S$driverId") 
DriverRunner */ 


i 








new DriverRunner (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16122/01 


'BPS/Text/...) 











fo (S"Askedq to kill driver S$driverId") 











qd) 
=> 





runner.kill () 
Case None => 
logError (s"Asked to kill unknown driver $driverId") 





match { 








/* Driver 状 态 更 新 */ 
case driverStateChanged @ DriverStateChanged (driverId, state, exception) => 1 
handleDriverStateChanged (driverStateChanged) 























3.5 ”容错 机 制 及 依赖 


一 般 而 言 ， 对 于 分 布 式 系统 ， 数 据 集 的 容错 性 通常 有 两 种 方式 : 

1) 数据 检查 点 (在 Spark 中 对 应 Checkpoint 机 制 ) 。 

2) 记录 数据 的 更 新 (在 Spark 中 对 应 Lineage 血 统 机 制 ) 。 

对 于 大 数据 分 析 而 言 ， 数 据 检查 点 操作 成 本 较 高 ， 需 要 通过 数据 中 心 的 网 络 连 接 在 机 器 之 间 复 制 庞大 的 数据 集 ， 而 网 络 带 宽 往 往 比 内 存 带 宽 低 ， 同 时 会 消耗 大 量 存 储 资源 。 


spark 选 择 记录 更 新 的 方式 。 但 更 新 粒度 过 细 时 ， 记 录 更 新 成 本 也 不 低 。 因 此 ，RDD 只 支持 粗 粒度 转换 ， 即 只 记录 单个 块 上 执行 的 单个 操作 ， 然 后 将 创建 RDD 的 一 系列 变换 序列 记录 下 来 ， 以 便 恢 复 丢 
失 的 分 区 。 


3.5.1 Lineage (血统 ) 机 制 
每 个 RDD 除 了 包含 分 区 信息 外 ， 还 包含 它 从 父辈 RDD 变 换 过 来 的 步骤 ， 以 及 如 何 重建 某 一 块 数据 的 信息 ， 因 此 RDD 的 这 种 容错 机 制 又 称 “ 血 统 ” (Lineage) 容错 。Lineage 本 质 上 很 类 似 于 数据 库 中 
的 重 做 日 志 (Redo Log) ， 只 不 过 这 个 重 做 日 志 粒 度 很 大 ， 是 对 全 局 数据 做 同样 的 重 做 以 便 恢复 数据 。 


相 比 其 他 系统 的 细 颗 粒度 的 内 存 数 据 更 新 级 别 的 备份 或 者 LOG 机 制 ，RDD 的 Lineage 记 录 的 是 粗 颗粒 度 的 特定 数据 Transformation 操 作 (如 filter、map、join 等 ) 。 当 这 个 RDD 的 部 分 分 区 数据 丢失 
时 ， 它 可 以 通过 Lineage 获 取 足 够 的 信息 来 重新 计算 和 恢复 丢失 的 数据 分 区 。 但 这 种 数据 模型 粒度 较 粗 ， 因 此 限制 了 Spark 的 应 用 场景 。 所 以 可 以 说 Spark 并 不 适用 于 所 有 高 性 能 要 求 的 场景 但 同时 相 比 细 
颗粒 度 的 数据 模型 ， 也 带 来 了 性 能 方面 的 提升 。 


RDD 在 Lineage 容 错 方面 采用 如 下 两 种 依赖 来 保证 容错 方面 的 性 能 : 


“ 窄 依 赖 (Narrow Dependeny) : 窄 依赖 是 指 父 RKDD 的 每 一 个 分 区 最 多 被 一 个 子 RDD 的 分 区 所 用 ， 表 现 为 一 个 父 RKDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 ， 或 多 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 。 


也 就 是 说 一 个 父 RDD 的 一 个 分 区 不 可 能 对 应 一 个 子 RDD 的 多 个 分 区 。 其 中 ，1 个 父 RDD 分 区 对 应 1 个 子 RDD 分 区 ， 可 以 分 为 如 下 两 种 情况 : 
“ 子 RDD 分 区 与 父 RDD 分 区 一 一 对 应 (如 map、filter 等 算 子 ) 。 
. 一 个 子 RDD 分 区 对 应 N 个 父 RDD 分 区 (如 co-patitioned (协同 划分 ) 过 的 Join) 。 
- 宽 依赖 (Wide Dependency， 源 码 中 称 为 Shuffle Dependency) : 
宽 依 赖 是 指 一 个 父 RDD 分 区 对 应 多 个 子 RDD 分 区 ， 可 以 分 为 如 下 两 种 情况 : 
. 一 个 父 RDD 对 应 所 有 子 RDD 分 区 (未 经 协同 划分 的 Join) 。 
. 一 个 父 RDD 对 应 多 个 RDD 分 区 ( 非 全 部 分 区 ) (如 groupByKey) 。 
窄 依赖 与 宽 依 赖 关 系 如 图 3-10 所 示 。 


从 图 3-10 可 以 看 出 对 依赖 类 型 的 划分 : 根据 父 RDD 分 区 是 对 应 一 个 还 是 多 个 子 RDD 分 区 来 区 分 窄 依赖 ( 父 分 区 对 应 一 个 子 分 区 ) 和 宽 依 赖 ( 父 分 区 对 应 多 个 子 分 区 ) 。 如 果 对 应 多 个 ， 则 当 容 错 重 算 分 
区 时 ， 对 于 需要 重新 计算 的 子 分 区 而 言 ， 只 需要 父 分 区 的 一 部 分 数据 ， 因 此 其 余数 据 的 重 算 就 导致 了 匈 余 计算 。 


Narrow Dependencies: ~ Wide Dependencies: 





Jom with nputs 
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SI co-partitioned 


图 3-10 ”两 种 依赖 关系 


对 于 宽 依 赖 ，Stage 计 算 的 输入 和 输出 在 不 同 的 节点 上 ， 对 于 输入 节点 完好 ， 而 输出 节点 死机 的 情况 ， 在 通过 重新 计算 恢复 数据 的 情况 下 ， 这 种 方法 容错 是 有 效 的 ， 否 则 无 效 ， 因 为 无 法 重 试 ， 需 要 疝 
上 追溯 其 祖先 看 是 否 可 以 重 试 ( 这 就 是 lineage， 血 统 的 意思 ) ， 窄 依赖 对 于 数据 的 重 算 开销 要 远 小 于 宽 依 赖 的 数据 重 算 开销 。 


窄 依赖 和 宽 依 赖 的 概念 主要 用 在 两 个 地 方 : 一 个 是 容错 中 相当 于 Redo 日 志 的 功能 ; 另 一 个 是 在 调度 中 构建 DAG 作 为 不 同 Stage 的 划分 点 (前面 调度 机 制 中 已 讲 过 ) 。 
依赖 关系 在 lineage 容 错 中 的 应 用 总 结 如 下 : 


1) 窄 依赖 可 以 在 某 个 计算 节点 上 直接 通过 计算 父 RDD 的 某 块 数据 计算 得 到 子 RDD 对 应 的 某 块 数据 ; 宽 依 赖 则 要 等 到 父 RDD 所 有 数据 都 计算 完成 ， 并 且 父 RDD 的 计算 结果 进行 hash 并 传 到 对 应 节点 上 之 
后 ， 才 能 计算 子 RDD。 


2) 数据 丢失 时 ， 对 于 罕 依 赖 ， 只 需要 重新 计算 丢失 的 那 一 块 数据 来 恢复 ; 对 于 宽 依 赖 ， 则 要 将 祖先 RDD 中 的 所 有 数据 块 全 部 重新 计算 来 居 复 。 所 以 在 长 “血统 ” 链 特别 是 有 宽 依 赖 时 ， 需 要 在 适当 的 
时 机 设置 数据 检查 点 (checkpoint 机 制 在 下 节 讲述 ) 。 可 见 spark 在 容错 性 方面 要 求 对 于 不 同 依赖 关系 要 采取 不 同 的 任务 调度 机 制 和 容错 恢复 机 制 。 


在 Spark 容 错 机 制 中 ， 如 果 一 个 节点 宕 机 了 ， 而 且 运 算 属于 窒 依 赖 ， 则 只 要 重 算 丢失 的 父 RDD 分 区 即 可 ， 不 依赖 于 其 他 节点 。 而 宽 依 赖 需 要 父 RDD 的 所 有 分 区 都 存在 ， 重 算 就 很 昂贵 了 。 更 深入 地 来 
说 : 在 窒 依 赖 天 系 中 ， 当 子 RDD 的 分 区 丢失 ， 重 算 其 父 RDD 分 区 时 ， 父 RDD 相 应 分 区 的 所 有 数据 都 是 子 RDD 分 区 的 数据 ， 因 此 不 存在 元 余 计 算 。 而 在 宽 依 赖 情 况 下 ， 丢 失 一 个 子 RDD 分 区 重 算 的 每 个 父 
RDD 的 每 个 分 区 的 所 有 数据 并 不 是 都 给 丢失 的 子 RDD 分 区 使 用 ， 其 中 有 一 部 分 数据 对 应 的 是 其 他 不 需要 重新 计算 的 子 RDD 分 区 中 的 数据 ， 因 此 在 宽 依 赖 关系 下 ， 这 样 计 算 就 会 产生 元 余 开 销 ， 这 也 是 宽 依 赖 
开销 更 大 的 原因 。 为 了 减少 这 种 隐 余 开销 ， 通 常 在 Lineage 血 统 链 比较 长 ， 并 且 含有 宽 依 赖 天 系 的 容错 中 使 用 Checkpoint 机 制 设置 检查 点 。 


3.5.2 ”Checkpoint (检查 点 ) 机 制 

通过 上 述 分 析 可 以 看 出 Checkpoint 的 本 质 是 将 RDD 写 入 Disk 来 作为 检查 点 。 这 种 做 法 是 为 了 通过 lineage 血 统 做 容错 的 辅助 ，lineage 过 长 会 造成 容错 成 本 过 高 ， 这 样 就 不 如 在 中 间 阶 段 做 检查 点 容错 ， 
如 果 之 后 有 节点 出 现 问题 而 丢失 分 区 ， 从 做 检查 点 的 RDD 开 始 重 做 Lineage， 就 会 减少 开销 。 

下 面 从 代码 层面 介绍 Checkpoint 的 实现 。 


1. 设 置 检查 点 数据 的 存 取 路 径 [SparkContext.scala] 





/* 设置 作为 RDD 检 查 点 的 目录 ， 如 果 是 集群 上 运行 ， 则 必须 为 HDFS 路 径 */ 
def setCheckpointDir(directory: String) 1{ 

















// If we are running on a cluster, log a warning if the directory is local. 












































// Otherwise, the driver may attempt to reconstruct the checkpointed RDD from 
// its own local file system, which is incorrect because the checkpoint files 
// are actually on the executor machines. 

if (!isLocal && Utils.nonLocalPaths (directory) .isEmpty) { 














logWarning ("Checkpoint directory must be non-local "+ 
"if Spark is running on a cluster: " + directory) 








} 


checkpointDir = Option (directory) .map { dir => 
val path = new Path (dir, UUID.randomUUID() .toString) 
val fs = path.getrFileSystem (hadoopConfiguration) 
fs.mkdirs (path) 
fs.getFileStatus (path) .getPath.toString 
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2. 设 置 检查 点 的 具体 实现 


[RDD.scala] 


/* 设置 检查 点 入 口 */ 
private[spark] def doCheckpoint(): Unit = { 
RDDOperationScope.withScope (sc, "checkpoint", allowNesting = false, ignoreParent = true) { 
if (lIdoCheckpointCalled) { 
doCheckpointCalled = true 
if (checkpointData.isDefined) { 
checkpointData.get.checkpoint () 
} else { 
A 
dependencies.foreach( .rdd.doCheckpoint ()) 









































} 
| 
} 
} 


[RDDCheckPointData.scalal . 
/* 设置 检查 点 ， 在 子 类 会 履 关 此 本 数 以 实现 具体 功能 */ 
protected def doCheckpoint () : CheckpointRDD [T] 











[ReliableRDDCheckpointData.scalal | 
/* 设置 检查 点 ， 将 RDD 内 容 写 入 可 靠 的 分 布 式 文件 系统 中 */ 
protected override def doCheckpoint (): CheckpointRDD[T] = { 


/* 为 检查 点 创建 输出 目录 */ 

val path = new Path (cpDir) 

val fs = path.getFileSystem(rdd.context.hadoopConfiguration) 
if (!fs.mkdirs(path)) { 
throw new SparkException(s"Failed to create checkpoint path $cpDir") 
























































} 
/* 保存 为 文件 ， 加 载 时 作为 一 个 RDD 加 载 */ 


val broadcastedConf = rdd.context.broadcast ( 
new SerializableConfiguration (rdd.context.hadoopConfiguration)) 


/* 重新 计算 RDD */ 

rdd.context.runJob (rdd, ReliableCheckpointRDD.writeCheckpointFile[T] (cpDir, broadcastedConf) ) 

val newRDD = new ReliableCheckpointRDD[T] (rdd.context, cpDir) 

if (newRDD.partitions.length != rdd.partitions.length) { 

throw new SparkException ( 
s"Checkpoint RDD SnewRDD($ {newRDD.partitions.length}) has different " 
s"number of partitions from original RDD S$rdd(${rdd.partitions. ie ") 






















































































} 
/* 当 引 用 不 在 此 范围 时 ， 清 除 检查 点 文件 */ 


if (rdd.conf.getBoolean ("spark.cleaner.referenceTracking.cleanCheckpoints", false)) { 
rdd.context.cleaner.foreach { cleaner => 
cleaner.registerRDDCheckpointDataForCleanup (newRDD, rdd.1iqd) 






























































} 
} 


logInfo(s"Done checkpointing RDD ${rdd.id} to S$cpDir, new parent is RDD ${newRDD.id}") 











newRDD 


} 
} 


3.6 shuffle 机 制 


在 MapReduce 框 架 中 ，Shuffle 是 连接 Map 和 Reduce 之 间 的 桥梁 ，Map 的 输出 要 用 到 Reduce 中 必须 经 过 shuffle 这 个 环节 ，shuffle 的 性 能 高 低 直 接 影响 了 整个 程序 的 性 能 和 吞吐 量 。Spark 作 为 
MapReduce 框 架 的 一 种 实现 ， 自 然 也 实现 了 Shuffle 的 逻辑 。 对 于 大 数据 计算 框架 而 言 ，Shuffle 阶 段 的 效率 是 决定 性 能 好 坏 的 关键 因素 之 一 。 


3.6.1 什么 是 Shuffle 


Shuffle 是 MapReduce 框 架 中 的 一 个 特定 的 阶段 ， 介 于 Map 阶 段 和 Reduce 阶 段 之 间 ， 当 Map 的 输出 结果 要 被 Reduce 使 用 时 ， 输 出 结果 需要 按 关键 字 值 (key) 哈 希 ， 并 且 分 发 到 每 一 个 Reducer 上 ， 
这 个 过 程 就 是 Shuffle。 直 观 来 讲 ，Spark Shuffle 机 制 是 将 一 组 无 规则 的 数据 转换 为 一 组 具有 一 定 规 则 数据 的 过 程 。 由 于 Shuffle 涉 及 了 磁盘 的 读 写 和 网 络 的 传输 ， 因 此 Shuffle 性 能 的 高 低 直 接 影响 整个 程序 
的 运行 效率 。 


在 MapReduce 计 算 框架 中 ，Shuffle 连 接 了 Map 阶 段 和 Reduce 阶 段 ， 即 每 个 Reduce Task 从 每 个 Map Task 产 生 的 数据 中 读 取 一 片 数据 ， 极 限 情况 下 可 能 触发 M*R 个 数据 拷贝 通道 (M 是 Map Task 数 
目 ，R 是 Reduce Task 数 目 ) 。 通 常 Shuffle 分 为 两 部 分 : Map 阶 段 的 数据 准备 和 Reduce 阶 段 的 数据 拷贝 。 首 先 ，Map 阶 段 需 根据 Reduce 阶 段 的 Task 数 量 决定 每 个 Map Task 输 出 的 数据 分 片 数 目 ， 有 多 种 
方式 存放 这 些 数据 分 片 : 


1) 保存 在 内 存 中 或 者 磁盘 上 (Spark 和 MapReduce 都 存放 在 磁盘 上 ) 。 


2) 每 个 分 片 对 应 一 个 文件 (现在 Spark 采 用 的 方式 ， 以 及 以 前 MapReduce 采 用 的 方式 ) ， 或 者 所 有 分 片 放 到 一 个 数据 文件 中 ， 外 加 一 个 索引 文件 记录 每 个 分 片 在 数据 文件 中 的 偏 移 量 (现在 
MapReduce 采 用 的 方式 ) 。 


因此 可 以 认为 Spark Shuffle 与 Mapreduce Shuffle 的 设计 思想 相同 ， 但 在 实现 细节 和 优化 方式 上 不 同 。 


在 Spark 中 ， 任 务 通常 分 为 两 种 ，Shuffle mapTask 和 reduceTask， 具 体 逻 辑 如 图 3-11 所 示 : 
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图 3-11 Spatk Shuffle 


| shuffle Fetch | 


图 3-11 中 的 主要 逻辑 如 下 : 

1) 首先 每 一 个 MapTask 会 根据 ReduceTask 的 数量 创建 出 相应 的 bucket，bucket 的 数量 是 M xR， 其 中 M 是 Map 的 个 数 ，R 是 Reduce 的 个 数 。 

2) 其 次 MapTask 产 生 的 结果 会 根据 设置 的 partition 算 法 填充 到 每 个 bucket 中 。 这 里 的 partition 算 法 是 可 以 自 定 义 的 ， 当 然 默认 的 算法 是 根据 key 哈 希 到 不 同 的 pucket 中 。 
当 ReduceTask 启 动 时 ， 它 会 根据 自己 task 的 id 和 所 依赖 的 Mapper 的 id 从 远 端 或 本 地 的 block manager 中 取得 相应 的 bucket 作 为 Reducer 的 输入 进行 处 理 。 

这 里 的 bucket 是 一 个 抽象 概念 ， 在 实现 中 每 个 bucket 可 以 对 应 一 个 文件 ， 可 以 对 应 文件 的 一 部 分 或 是 其 他 等 。Spark shuffle 可 以 分 为 两 部 分 

1) 将 数据 分 成 bucket， 并 将 其 写 入 磁盘 的 过 程 称 为 Shuffle Write。 


2) 在 存储 Shuffle 数 据 的 节点 Fetch 数 据 ， 并 执行 用 户 定义 的 聚集 操作 ， 这 个 过 程 称 为 Shuffle Fetch。 


3.6.2 Shuffle 历史 及 细节 


下 面 介绍 Shuffle Write 与 Fetch。 

1.Shuffle Write 

在 Spark 的 早期 版 本 实现 中 ，Spark 在 每 一 个 MapTask 中 为 每 个 ReduceTask 创 建 一 个 bucket， 并 将 RDD 计 算 结果 放 进 bucket 中 。 

但 早期 的 Shuffle Write 有 两 个 比较 大 的 问题 

1) Map 的 输出 必须 先 全 部 存储 到 内 存 中 ， 然 后 写 入 磁盘 。 这 对 内 存 是 非常 大 的 开销 ， 当 内 存 不 足以 存储 所 有 的 Map 输 出 时 就 会 出 现 OOM (Out of Memory) 。 


2) 每 个 MapTask 会 产生 与 ReduceTask 数 量 一 致 的 Shuffle 文 件 ， 如 果 MapTask 个 数 是 1k，ReduceTask 个 数 也 是 1k， 就 会 产生 1M 个 Shuffle 文 件 。 这 对 于 文件 系统 是 比较 大 的 压力 ， 同 时 在 Shuffle 数 
气量 不 大 而 Shuffle 文 件 又 非常 多 的 情况 下 ， 随 机 写 也 会 严重 降低 1O 的 性 能 。 


后 来 到 了 Spark 0.8 版 实现 时 ， 显 著 减少 了 Shuffle 的 内 存 压力 ， 现 在 Map 输 出 不 需要 先 全 部 存储 在 内 存 中 ， 再 flush 到 硬盘 ， 而 是 record-by-record 写 入 磁盘 中 。 对 于 Shuffle 文 件 的 管理 也 独立 出 新 的 
shuffleBlockManager 进 行 管理 ， 而 不 是 与 RDD cache 文 件 在 一 起 了 。 


但 是 Spark 0.8 版 的 Shuffle Write 仍然 有 两 个 大 的 问题 没有 解决 。 
1) Shuffle 文 件 过 多 的 问题 。 这 会 导致 文件 系统 的 压力 过 大 并 降低 1O 的 吞吐 量 。 


2) 里 然 Map 输 出 数据 不 再 需要 预先 存储 在 内 存 中 然后 写 入 磁盘 ， 从 而 显著 减少 了 内 存 压力 。 但 是 新 引入 的 DiskObjectWriter 所 带 来 的 buffer 开 销 也 是 不 容 小 视 的 内 存 开销 。 假 定 有 1k 个 MapTask 和 1k 
个 ReduceTask， 就 会 有 1M 个 bucket， 相 应 地 就 会 有 1M 个 write handler， 而 每 一 个 write handler 默 认 需 要 100KB 内 存 ， 那 么 总 共 需 要 100GB 内 存 。 这 样 仅仅 是 buffer 就 需要 这 么 多 的 内 存 。 因 此 当 
ReduceTask 数 量 很 多 时 ， 内 存 开 销 会 很 大 。 


为 了 解决 shuffle 文 件 过 多 的 情况 ，Spark 后 来 引入 了 新 的 Shuffle consolidation ， 以 期 显著 减少 Shuffle 文 件 的 数量 。 
Shuffle consolidation 的 原理 如 图 3-12 所 示 : 


在 图 3-12 中 ， 假 定 该 job 有 4 个 Mapper 和 4 个 Reducer， 有 2 个 core 能 并 行 运行 两 个 task。 可 以 算出 Spark 的 Shuffle Write 共 需 要 16 个 bucket， 也 就 有 了 16 个 write handler。 在 之 前 的 Spark 版 本 中 ， 每 
个 bucket 对 应 一 个 文件 ， 因 此 在 这 里 会 产生 16 个 shuffle 文 件 。 
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图 3-12 Shuffle consolidation 


而 在 Shuffle consolidation 中 ， 每 个 bucket 并 非 对 应 一 个 文件 ， 而 是 对 应 文件 中 的 一 个 segment。 同 时 Shuffle consolidation 产 生 的 Shuffle 文 件数 量 与 Spark core 的 个 数 也 有 关系 。 在 图 3-12 中 ，job 
中 的 4 个 Mapper 分 为 两 批 运行 ， 在 第 一 批 2 个 Mapper 和 运行 时 会 申请 8 个 bucket， 产 生 8 个 shuffle 文 件 ; 而 在 第 二 批 Mapper 运 行 时 ， 申 请 的 8 个 bucket 并 不 会 再 产生 8 个 新 的 文件 ， 而 是 追加 写 到 之 前 的 8 个 
文件 后 面 ， 这 样 一 共 就 只 有 8 个 Shuffle 文 件 ， 而 在 文件 内 部 共有 16 个 不 同 的 segment。 因 此 从 理论 上 讲 Shuffle consolidation 产 生 的 Shuffle 文 件数 量 为 CxR， 其 中 C 是 Spark 集 群 的 core number，R 是 
Reducer 的 个 数 。 


很 显然 ， 当 M=C 时 ，Shuffle consolidation 产 生 的 文件 数 和 之 前 的 实现 相同 。 


Shuffle consolidation 显 著 减 少 了 shuffle 文 件 的 数量 ， 解 决 了 Spark 之 前 实现 中 一 个 比较 严重 的 问题 。 但 是 Writer handler 的 buffer 开 销 过 大 依然 没有 减少 ， 若 要 减少 Writer handler 的 buffer 开 销 ， 
只 能 减少 Reducer 的 数量 ， 但 是 这 又 会 引入 新 的 问题 。 


2.Shuffle Fetch 与 Aggregator 


Shuffle Write 写 出 去 的 数据 要 被 Reducer 使 用 ， 就 需要 Shuffle Fetch 将 所 需 的 数据 Fetch 过 来 。 这 里 的 Fetch 操 作 包 括 本 地 和 远 端 ， 因 为 Shuffle 数 据 有 可 能 一 部 分 是 存储 在 本 地 的 。 在 早期 版 本 
中 ，Spark 对 Shuffle Fetcher 实 现 了 两 套 不 同 的 框架 : NIO 通 过 socket 连 接 Fetch 数 据 ; OIO 通 过 netty server 去 fetch 数 据 。 分 别 对 应 的 类 是 Basic-BlockFetcherlterator 和 NettyBlockFetcherlterator。 


目前 在 Spark1.5.0 中 做 了 优化 。 新 版 本 定义 了 类 ShuffleBlockFetcherlterator 来 完成 数据 的 fetch。 对 于 local 的 数据 ，ShuffleBlockFetcherlterator 会 通过 |local 的 BlockMan-ager 来 fetch。 对 于 远 端 的 
数据 块 ， 它 通过 BlockTransferService 类 来 完成 。 具 体 实现 参见 如 下 代码 : 














[ShuffleBlockFetcherIiterator.scalal 
/* fetch local 数 据 块 */ 
private[this] def fetchLocalBlocks() { 
val iter = localBlocks.iterator 
while (iter.hasNext) 1{ 
val blockId = iter.next () 
try { 
/* 通过 blockManager 来 fetch 数 据 */ 
val buf = blockManager .getBlockData (blockId) 
shuffleMetrics.incLocalBlocksFetched (1) 
shuffleMetrics.incLocalBytesRead (buf.size) 
buf.retain () 
results.put (new SuccessFetchResult (blockId, blockManager.blockManagerId, 0, buf)) 
} catch { 
Case e: Exception => 
// If we see an exception, stop immediately. 
logError (s"Error occurred while fetching local blocks", e) 
results.put (new FailureFetchResult (blockId, blockManager.blockManagerId, e)) 
return 



















































































































































































} 


/* 发 送 请 求 获 取 远 端 数据 */ 

privatelthis] def sendRequest (req: FetchRequest) { 
/* 请 求 格 式 */ 
logDebug ("Sending request for %d blocks (%s) from 区 S" .format ( 
req.blocks.size, Utils.bytesToString (reqg.size), req.address.hostPort)) 
bytesInFlight += req.size 


















































// so we can look up the size of each blockID 
val sizeMap = req.blocks.map { case (blockId, size) => (blockId.toString, size) }.toMap 
val blockIds = req.blocks .map( . 1.toString) 

















val address = req.address 


/* fetch 数 据 */ 
shuffleClient.fetchBlocks (address.host, address.port, address.executorId, blockIds.toArray, 
new BlockFetchingListener { 
override def onBlockFetchSuccess (blockId: String, buf: ManagedBuffer): Unit = { 
// Only add the buffer to results queue if the iterator is not zombie, 
// i.e. cleanup() has not been called yet. 
if (!lisZombie) { 
// Increment the ref count because we need to pass this to a different thread. 
// This needs to be released after use. 
buf.retain () 


/* fetch 请 求 成 功 */ 

































































































































































results.put (new SuccessFetchResult (BlockId (blockId), address, sizeMap (blockId), buf)) 
shuffleMetrics.incRemoteBytesRead (buf.size) 
shuffleMetrics.incRemoteBlocksFetched (1) 



































override def onBlockrFetchFailure (blockId: String, e: Throwable): 








/* fetch 失败 */ 





在 MapReduce 的 Shuffle 过 程 中 ，Shuffle fetch 过 来 的 数据 会 进行 归并 排序 (merge sort) ， 使 得 相同 key 下 的 不 同 value 按 序 归 并 到 一 起 供 Reducer 使 用 ， 这 个 过 程 如 图 3-13 所 示 : 


这 些 归并 排序 都 是 在 磁盘 上 进行 的 ， 这 样 做 虽然 有 效 地 控制 了 内 存 使 用 ， 但 磁盘 10O 却 大 幅 增 加 了 。 昌 然 Spark 属 于 MapReduce 体 系 ， 但 是 对 传统 的 MapReduce 算 法 进行 了 一 定 的 改变 。Spark 假 定 在 
大 多 数 应 用 场景 下 ，Shuffle 数 据 的 排序 不 是 必须 的 ， 如 word count。 强 制 进行 排序 只 会 使 性 能 变 差 ， 因 此 Spark 并 不 在 Reducer 端 做 归并 排序 。 既 然 没 有 归并 排序 ， 那 Spark 是 如 何 进行 reduce 的 呢 ? 这 就 
涉及 下 面 要 讲 的 Shuffle Aggregator 了 。 
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图 3-13 Fetch merge 
Aggregator 本 质 上 是 一 个 hashmap， 它 是 以 map output 的 key 为 key， 以 任意 所 要 combine 的 类 型 为 value 的 hashmap。 


在 做 word count reduce 计 算 count 值 时 ， 它 会 将 Shuffle fetch 到 的 每 一 个 key-value 对 更 新 或 是 插入 hashmap 中 ( 若 在 hashmap 中 没有 查找 到 ， 则 插入 其 中 ; 若 查 找到 ， 则 更 新 value 值 ) 。 这 样 就 
不 需要 预先 把 所 有 的 key-value 进 行 merge sort， 而 是 来 一 个 处 理 一 个 ， 省 去 了 外 部 排序 这 一 步骤 。 但 同时 需要 注意 的 是 ，reducer 的 内 存 必 须 足以 存放 这 个 partition 的 所 有 key 和 count 值 ， 因 此 对 内 存 有 
一 定 的 要 求 。 


在 上 面 word count 的 例子 中 ， 因 为 value 会 不 断 地 更 新 ， 而 不 需要 将 其 全 部 记录 在 内 存 中 ， 因 此 内 存 的 使 用 还 是 比较 少 的 。 考 虑 一 下 如 果 是 groupByKey 这 样 的 操作 ，Reducer 需 要 得 到 key 对 应 的 所 有 
value。 在 Hadoop MapReduce 中 ， 由 于 有 了 归并 排序 ， 因 此 给 予 Reducer 的 数据 已 经 是 group by key 了 ， 而 Spark 没 有 这 一 步 ， 因 此 需要 将 key 和 对 应 的 value 全 部 存放 在 hashmap 中 ， 并 将 value 合 并 成 
一 个 array。 可 以 想象 为 了 能 够 存放 所 有 数据 ， 用 户 必须 确保 每 一 个 partition 小 到 内 存 能 够 容纳 ， 这 对 于 内 存 是 非常 严峻 的 考验 。 因 此 在 Spark 文 档 中 ， 建 议 用 户 涉及 这 类 操作 时 尽量 增加 partition， 也 就 是 
增加 Mapper 和 Reducer 的 数量 。 


增加 Mapper 和 Reducer 的 数量 固然 可 以 减 小 partition 的 大 小 ， 使 内 存 可 以 容纳 这 个 partition。 但 是 在 Shuffle write 中 提 到 ，bucket 和 对 应 于 bucket 的 write handler 是 由 Mapper 和 Reducer 的 数量 决 
定 的 ，task 越 多 ，bucket 就 会 增加 得 更 多 ， 由 此 带 来 write handler 所 需 的 buffer 也 会 更 多 。 在 一 方面 我 们 为 了 减少 内 存 的 使 用 采取 了 增加 task 数 量 的 策略 ， 另 一 方面 task 数 量 增 多 又 会 带 来 buffer 开 销 更 大 
的 问题 ， 因 此 陷入 了 内 存 使 用 的 两 难 境地 。 


为 了 减少 内 存 的 使 用 ， 只 能 将 Aggregator 的 操作 从 内 存 移 到 磁盘 上 进行 ， 因 此 spark 新 版 本 中 提供 了 外 部 排序 的 实现 ， 以 解决 这 个 问题 。 


Spark 将 需要 聚集 的 数据 分 为 两 类 : 不 需要 归并 排序 和 需要 归并 排序 的 数据 。 对 于 前 者 ， 在 内 人 存 中 的 AppendOnlyMap 中 对 数据 聚集 。 对 于 需要 归并 排序 的 数据 ， 现 在 内 存 中 进行 聚集 ， 当 内 存 数据 达 
到 靖 值 时 ， 将 数据 排序 后 写 入 磁盘 。 事 实 上 ， 磁 盘 上 的 数据 只 是 全 部 数据 的 一 部 分 ， 最 后 将 磁盘 数据 全 部 进行 归并 排序 和 聚集 。 具 体 Aggregator 的 逻辑 可 以 参见 Aggregator 类 的 实现 。 


@QDeveloperApi 

case class Aggregator[K, V, C] ( 
createCombiner: V => C, 
mergeValue: (C, V) => Cr 
mergeCombiners: (C, C) => C) 1 


// 是 否 外 部 排序 


private val isSpillEnabled = SparkEnv.dget.conf.getBoolean ("Sspark.shuffle.spil11"，true) 



































Qdeprecated ("use combineValuesByKey with TaskContext argument", "0.9.0") 
def combineValuesByKey (iter: Iterator[ <: Product2[K, V]]): Iterator[ (K, C)] = 
combineValuesByKey (iter, null) 

































































def combineValuesByKey (iter: Iterator[ <: Product2[K, Vj]], 
context: TaskContext): Iterator[(K, C)] = { 
if (!isSpillEnabled) { 

















/* 创建 AppendonlyMap 对 象 存储 了 combine 和 集合 ， 每 个 combine 是 一 个 Key 及 对 应 Key 的 元 素 Seq */ 























val combiners = new AppendOonlyMap[K, CI] 
Var kv: Product2[K, V] = null] 
val upaate = (hadValue: Boolean, oldValue: C) => { 



































/* 检查 是 否 处 理 的 是 第 一 个 元 素 ， 如 果 是 则 先 创建 集合 结构 ， 如 果 不 是 则 直接 插入 */ 


if (hadValue) mergeValue (oldValue, kv. 2) else createCombiner (kv. 2) 











} 
while (iter.hasNext) { 
kv = iter.next () 
/* 当 不 采用 外 排 时 ， 利 用 AppendonlyMap 结 构 存 储 数 据 */ 


combiners.changeValue (kv. 1, update) 








} 
combiners.iterator 
} else { 
val combiners = new ExternalAppendonlyMap[K, V, C] (createCombiner, mergeValue, mergeCombiners) 
/* 如 果 采 用 外 排 时 ， 使 用 ExternalAppendonlyMap 结 构 存 储 肾 集 数据 */ 
combiners.insertAll (iter) 
updateMetrics (context, combiners) 
combiners.iterator 
































本 节 就 Shuffle 的 概念 与 原理 先 介绍 到 这 里 。 在 下 一 章 讲解 Spark 源 码 时 ， 会 对 Shuffle 的 核心 机 制 一 一 shuffle 存 储 做 代码 层面 的 讲解 。 相 信 学 习 完 本 章 和 第 4 章 的 Shuffle 存 储 机 制 后 ， 读 者 会 对 Shuffle 


机 制 掌握 得 更 加 深入 。 


3.7 ”本章 小 结 
本 章 主要 讲述 了 Spark 的 工作 机 制 与 原理 。 首 先 剖 析 了 Spark 的 提交 和 执行 时 的 具体 机 制 ， 重 点 强调 了 Spark 程 序 的 宏观 执行 过 程 : 提交 后 的 Job 在 Spark 中 形成 了 RDD DAG (有 向 无 环 图 ) ， 然 后 进入 


一 系列 切 分 调度 的 过 程 。 在 剖析 过 程 中 ， 结 合 Spark 的 源码 呈现 了 这 些 调 度 过 程 的 代码 细节 。 本 章 后 半 部 分 接着 剖析 了 spark 的 存储 及 IO、Sspark 通 信 机 制 ， 最 后 讲述 了 spark 的 容错 机 制 及 Shuffle 机 制 。 本 
章 内 容 比较 多 ， 和 希望 读者 仔细 体会 。 


第 4 章 ”深入 Spark 内 核 


Spark 在 BDAS 生 态 系 统 中 处 于 核心 地 位 ， 其 他 相关 组 件 通 过 Spark 实 现 对 分 布 式 并 行 处 理 任务 程序 的 支持 。 本 章 试 着 从 Spark 内 核 代 码 实现 方面 ， 来 进一步 剖析 Spark， 以 加 深 读者 对 Spark 设 计 思 想 与 
实现 细节 的 理解 。 


4.1 Spark 代 人 码 布局 


4.1.1 ”Spark 源 码 布局 简介 


图 4-1 列 出 了 Spark 的 代码 结构 及 包含 的 重点 功能 模块 。 通 过 图 4-1， 可 以 对 Spark 的 主要 构成 及 代码 布局 形成 直观 的 印象 ， 这 些 模块 也 构成 了 Spark 架 构 中 的 功能 组 件 。 根 据 Spark 的 代码 布局 ， 读 者 可 
以 自行 查阅 源码 ， 这 对 于 掌握 Spark 的 实现 细节 ， 加 深 对 Spark 实 现 机 制 的 理解 都 是 非常 有 必要 的 。 
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4.1 Spark 代 人 码 布局 


4.1.1 Spark 源 码 布局 简介 


图 4-1 列 出 了 Spark 的 代码 结构 及 包含 的 重点 功能 模块 。 通 过 图 4-1， 可 以 对 Spark 的 主要 构成 及 代码 布局 形成 直观 的 印象 。 这 些 模 块 也 构成 了 Spark 架 构 中 的 功能 组 件 。 根 据 Spark 的 代码 布局 ， 读 者 可 
以 自行 查阅 源码 ， 这 对 于 掌握 Spark 的 实现 细节 ， 加 深 对 Spark 实 现 机 制 的 理解 都 是 非常 有 必要 的 。 
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图 4-1 ”Spa 水 代 码 布 局 


4.1.2 Spark Core 内 模块 概述 


下 面 一 一 介绍 Spark Core 中 重点 组 成 模块 的 功能 。 
1) Api: Java、Python 及 R 语 言 API 的 实现 。 

2) BroadCast: 包含 广播 变量 的 实现 。 

3) Deploy: Spark 部 署 与 启动 运行 的 实现 。 

4) Executor: Worker 节 点 负责 计算 部 分 的 实现 。 
5) Metrics: 运行 时 状态 监控 的 实现 。 

6) Network: 集群 通信 实现 。 

7) Partial: 近似 评估 代码 。 

8) Serializer: 序列 化 模块 。 

9) Storage: 存储 模块 。 


10) Ul: 监控 界面 的 代码 逻辑 实现 。 


4.1.3 Spark Core 外 模块 概述 


下 面 是 Spark Core 以 外 的 其 他 模块 。 

1) Begal: Pregel 是 Google 的 图 计算 框架 ，Begal 是 基于 Spark 的 轻 量 级 Pregel 实 现 。 
2) MLlib: 机 器 学 习 算法 库 。 

3) SQL: SQL on Spark， 提 供 大 数据 上 的 查询 功能 。 

4) GraphX: 图 计算 模块 的 实现 。 

5) Streaming: 流 处 理 框架 Spark Streaming 的 实现 。 


6) YARN: Spark on YARN 的 部 分 实现 。 


4.2 ， Spark 执行 主线 [RDD 一 Task] 剖 析 


在 前 面 一 章 中 详细 讲 过 ， 当 Action 算 子 被 调用 之 后 ，Spark 作 业 就 开始 进入 切 分 调度 执行 的 几 个 重点 执行 阶段 ， 具 体 如 图 4-2 所 示 ， 此 处 不 再 歼 述 。 


在 Spa 水 中 ，Job 作 业 从 提交 到 切 分 成 Task 在 Worker 节 点 上 执行 的 这 个 过 程 可 以 称 为 S$park 执 行 主线 ， 这 条 主线 是 理解 Spark 原 理 的 重点 。 前 面 几 章 主要 从 原理 的 层面 揭示 了 Job 提 交 之 后 会 发 生 什 么 。 
本 节 将 带领 读者 从 源码 层面 深入 剖析 这 条 执行 主线 。 通 过 本 节 ， 读 者 势必 会 对 Spark 的 重点 部 分 理解 得 更 加 深入 。 
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图 4-2 ”Spatk 执 行 主 要 阶段 


4.2.1 从 RDD 到 DAGScheduler 


因为 Action 算 子 会 触发 Job 的 提交 ， 所 以 下 面 还 是 以 Count 函数 为 例 来 剖析 整个 执行 主线 。 注 : [中 为 代码 片段 所 在 文件 名 。 


[org.apache. spark.rdd.RDDI] 
[RDD. scalal] 
/** 
* Return the number of elements in the RDD. 
uy 











def count () : Long = sc.runJob (this, Utils.getIteratorSize ) .Sum 








很 明显 ， 在 count 了 消 数 中 调用 了 runJob，runJob 遂 数 的 实现 位 于 org.apache.spark.SparkContext 类 中 。 


[SparkContext .scalal 


def runJob[T, U: ClassTag] ( 
rdd: RDDI[T], 
func: (TaskContext, Iterator[T]) => U, 











partitions: Sedq[IntL]， 
resultHandler: (Int, U) => Unit): Unit = { 
if (stopped.get()) {{ 
throw new IllegalStateException ("SparkContext has been shutdown") 
















































































val callSite = getCallSite 

val cleanedFunc = clean (func) 

logInfo("Starting job: " + callSite.shortForm) 

if (conf.getBoolean("spark.logLineage", false)) { 

logInfo ("RDD's recursive dependencies:\n" + rdd.toDebugString) 














} 

/* 注意 ! 从 此 处 进入 DAGScheduler 阶 段 */ 

dagSscheduler.runJob (rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get) 
progressBar.foreach( .finishAll]l ()) 

rdd.doCheckpoint () 























从 上 述 SparkContext.scala 的 runJob 实 现 可 以 发 现 ， 其 中 调用 了 org.apache.spark.scheduler.DAGScheduler 类 中 的 runJob 函 数 ， 说 明 RDD Graph 处 理 完成 ， 进 入 了 DAGScheduler 的 处 理 阶段 。 


4.2.2 从 DAGScheduler 到 TaskSscheduler 


下 面 介绍 进入 DAGSscheduler 之 后 的 处 理 阶段 ， 限 于 篇 幅 ， 在 代码 部 分 省 略 了 部 分 不 太 重 要 的 代码 ， 读 者 在 阅读 本 章 后 ， 可 以 使 用 Inte 川 IDEA 阅读 更 完整 的 代码 ， 以 便 更 深入 地 理解 。 


[DAGScheduler.scalal 

def runJob[T, U]( 

rdd: RDDIT], 

func: (TaskContext, Iterator[T]) => U, 
partitions: SeqlIntl], 

callSite: CallSite, 
resultHandler: (Int, U) => Unit, 
properties: Properties): Unit = { 
val start = System.nanoTime 


// 注 意 ! 这 里 继续 调用 了 同一 文件 中 的 submitJob 函 数 
val waiter = submitJob (qdq，func，Ppartitions，cal1LSite， resultHandler, properties) 
waiter.awaitResult() match { 
case JobSucceeded => 






























































Case JobFailed (exception: Exception) => 








def submitJob[T, UI] 
rdd: RDDIT], 
func: (TaskContext, Iterator[T]) => U, 
partitions: Sedq[Int]， 
callSite: CallSite, 
resultHandler: (Int, U) => Unit, 
properties: Properties): JobWaiter[U] = { 
// Check to make sure we are not launching a task on a partition that does not exist. 
val maxPartitions = rdd.partitions.1length 
partitions.find(p => P >= maxPartitions || p < 0).foreach { p => 


一 





















































val jobId = nextuUobId.getAndqIncrement () 











assert (partitions.size > 0) 
val func2 = func.asInstanceof [ (TaskContext, Iterator[ ]) => | 


val waiter = new JobWaiter (this, jobId, partitions.size, resultHandler) 
























































// 注 意 ， 此 处 为 Spark1.5.0 中 通信 机 制 的 新 实现 ， 发 送 JobSubmitted 消 息 
eventProcessLoop.post (JobSupmitted ( 
jobId, rdd, func2, partitions.toArray, callSite, waiter, 
SerializationUtils.clone (Properties) ) ) 
waiter 

















下 面 列 出 接收 JobSubmitted 消 息 后 的 处 理 。 








private def doOonReceive (event: DAGSchedulerEvent): Unit = event match { 
// 处 理 消息 JobSubmitted 
case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties) => 
// 调 用 handleJobSubmittegd 消 数 
dagSscheduler.handleJobSubmitted (jobId, rdd, func, partitions, callSite, listener, properties) 

Case ..... 





















































在 处 理 JopSubmitted 的 代码 中 ， 可 以 看 到 Spark 继 续 调 用 了 同一 文件 中 的 handle-Jobsubmitted 函 数 。 下 面 列 出 该 函数 的 重点 代码 片段 ， 为 了 突出 重点 ， 略 去 了 部 分 无 关 代码 。 











private[scheduler] def handleJopSupmitted (jobId: Int， 
finalRDD: RDD[ ]， 

func: (TaskContext, Iterator[ ]) => ， 

partitions: Array[Int]， 

callSite: CallSite, 

listener: JobListener, 

properties: Properties) { 












































Var finalStage: ResultStage = null 
try { 


// 将 最 后 一 个 stage 切 分 出 来 作为 finalstage 
finalStage = newResultStage (finalRDD, func, partitions, jobId, callSite) 
} catch { 









































val job = new ActiveJob (jobId, finalStage, callSite, listener, properties) 
clearCacheLocs () 


































































































ogInfo("Got job %s (%s) with %d output partitions" .format (job.jobId, callSite.shortForm, partitions.length)) 
logInfo("Final stage: " + finalStage + " (" + finalStage.name + ")") 
logInfo("Parents of final stage: " + finalStage.parents) 
// 检 验 finalStage 是 否 有 依赖 的 父辈 stage 未 被 计算 完成 
logInfo("Missing parents: " + getMissingParentStages (finalStage)) 
val jobSubmissionTime = clock.getTimeMillis () 
jobIdToActiveJob (jobId) = job 








activeJobs += job 
finalStage.resultOfJob = Some (job) 
val stagelds = jobIdToStagelIds (jobId) .toArray 




















// 提 交 finalStage 
submitStage (finalStage) 








submitWaitingStages () 


下 面 看 看 finalstage 被 提交 之 后 ，Spark 的 处 理 逻 辑 。 


private def supmitStage (stage: Stage) { 
val JoblId = activeJobForStage (stage) 
if (joblId.isDefined) { 


























if (lwaitingStages (stage) && !runningStages (stage) && !failedStages (stage)) { 
val missing = getMissingParentStages (stage) .sortBy( .id) 
logDebug ("missing: " + missing) 








Eis 





f (missing.isEmpty) { 


// 如 果 stage 所 有 依赖 的 父辈 stage 已 结算 完成 , 则 直接 提交 stage 
submitMissingTasks (stage, jobId.get) 

} else { 

for (parent <- missing) { 


// 如 果 stage 依 赖 的 父辈 stage 未 被 计算 完成 ， 则 递归 调用 本 函数 
submitStage (parent) 
} 


waitingStages += stage 






































在 上 面 的 程序 片段 中 ， 最 后 调用 了 submitMissingTasks 函 数 提交 stage。 由 下 面 的 程序 片段 可 以 看 出 ， 此 时 DAGScheduler 将 task 的 调度 交 给 了 TaskScheduler， 调 用 TaskSchedule 中 的 submitTasks 
国 数 将 task 数 组 封装 为 TaskSet 对 象 ， 然 后 提交 TaskSet。 具 体 如 下 : 














private def submitMissingTasks (stage: Stage, jobIdq: Int) { 

logDebug ("submitMissingTasks(" + stage + ")") 

// Get our pending tasks and remember them in our pendingTasks entry 
stage.pendingPartitions.clear () 






































if (tasks.size > 0) { 
logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")") 
stage.pendingPartitions ++= tasks.map( .PartitionId) 
logDebug ("New pending partitions: " + stage.pendingPartitions) 

















// 注 意 ! 这 里 进入 了 task scheduler 阶 段 来 提交 TaskSet 
taskScheduler.submitTasks (new TaskSet (tasks.toArray, stage.id, stage.latestIinfo.attemptId, stage.firstJobld, properties)) 



































override def submitTasks (taskSet: TaskSet) { 

val tasks = taskSet.tasks 

logInfo ("Adding task set "+ taskSet.id + " with "+ tasks.length + " tasks") 

this.synchronized { 
// 生 成 TaskSetManager 来 执行 taskset 内 的 调度 
val manager = createTaskSetManager (taskSet, maxTaskFailures) 
val stage = taskSet.stagelId 
val stageTaskSets = taskSetsByStageIdAndAttempt .getoOr 
stageTaskSets (taskSet.stageAttemptId) = manager 







































































本 | 





lseUpdate (stage, new HashMaplIint, TaskSetManager]) 

















// 注 意 ! 在 这 里 请 求 执行 的 计算 资源 


backend.reviveOffers () 




















上 面 submitTasks 函 数 中 最 后 调用 了 org.apache.spark.scheduler.cluster.CoarseGrained-SchedulerBackend 类 中 的 reviveOffers 函 数 来 请 求 计算 资源 ， 下 面 列 出 该 函数 的 实现 。 





[CoarseGrainedSchedulerBackend.scalal 




















override def reviveOffers() { 
// 这 里 发 送 了 Reviveoffers 的 消息 
driverEndpoint.send (ReviveoOf 




















rs) 











下 面 继续 追寻 ReviveOffers 消 息 的 处 理 逻 辑 ， 具 体 如 下 : 





[CoarseGrainedSchedulerBackend.scalal 
override def receive: PartialFunction[Any, Unit] = { 
case StatusUpdate (executorId, taskId, state, data) => 
scheduler.statusUpdate (taskId, state, data.value) 
if (TaskState.isFinished(state)) { 
executorDataMap.get (executorId) match { 
Case Some (executorInfo) => 
executorInfo.freeCores += scheduler.CPUS PER TASK 
makeOffers (executorId) = 
case None 三 > 
// Ignoring the update since we don't know about the executor. 
logWarning(s"Ignored task Status update (S$taskId state SSstate) " 十 
s"from unknown executor with ID S$SexecutorId") 


























































































































} 
} 








Case ReviveOffers => 
// 注 意 ! 调用 makeOffers 函 数 来 处 理 ReviveOffers 消 息 
makeOffers () 



























































case KillTask => 




















private def makeOffers() { 
// Filter out executors under killing 
val activeExecutors = executorDataMap.filterkKeys (!executorsPendingToRemove.contains( )) 


// 获 取 可 用 的 计算 资源 
val workOffers = activeExecutors.map { case (id, executorData) => 
new WorkerOffer (id, executorData.executorHost, executorData.freeCores) 


} .toSeq 






















































































// 启 动 task 


launchTasks (scheduler.resourceOffers (workOffers)) 


























} 


private def launchTasks (tasks: Seq[Segq[TaskDescription]]) { 
for (task <- tasks.flatten) { 
val serializedTask = ser.serialize (task) 
if (serializedTask.limit >= akkaFrameSize - AkkaUtils.reservedSizeBytes) { 
scheduler.taskIdToTaskSetManager.get (task.taskId) .foreach { taskSetMgr => 
try { 
























































} 

else { 
val executorData = executorDataMap (task.executorId) 
executorData.freeCores -= scheduler.CPUS PER TASK 

















// 注 意 ! 发 送 LaunchTask 消 息 来 执行 启动 task 操 作 
executorData.executorEndpoint.send(LaunchTask (new SerializableBuffer (serializedTask))) 
































在 上 面 程序 片段 中 ，launchTasks 函 数 最 后 发 送 LaunchTask 消 息 来 完成 对 task 的 启动 操作 ， 具 体 在 org.apache.spark.executor.Executor 中 完成 。 下 面 给 出 Executor.scala 中 的 重点 相关 程序 片段 。 





[Executor.scalal 


private[lspark] class ExXecutor ( 
executorId: String, 
executorHostname: String, 
env: SparkEny, 
userClassPath: Seq[lURL] = Nil, isLocal: Boolean = false) 
extends Logging { 





























// 启 动 Worker 节 点 上 的 thread pool 
private val threadPool = ThreadUtils.newDaemonCachedThreadPool ("Executor task launch worker") 


private val executorSource = new ExecutorSource (threadPool, executorId) 























def launchTask( 

context: ExecutorBackengd, 
taskId: Long, 
attemptNumber: Int, 
taskName: String, 
serializedTask: ByteBuffer): Unit = { 

// 将 task 包 装 成 TaskRunner 

val tr = new TaskRunner (context, taskld = taskId, attemptNumber = attemptNumber, taskName, serializedTask) 















































// 将 TaskRunner 加 入 running task list 
runningTasks.put (taskId, tr) 








//threadpool 执 行 该 task 
threadPool .execute (tr) 


至 此 ， 从 Job 提 交 到 最 终 task 在 Worker 节 点 上 执行 的 主线 已 剖析 完 。 





在 上 一 节 沿 着 作业 从 提交 到 切 分 成 task 在 Worker 节 点 上 执行 的 一 条 主线 来 剖析 了 相关 代码 。 本 节 将 带领 读者 从 另 一 个 角度 ， 即 Client、Master 和 Worker 之 间 交 互 的 角度 来 剖析 代码 。 交 互 细节 如 图 4-3 
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在 上 一 节 沿 着 作业 从 提交 到 切 分 成 task 在 Worker 节 点 上 执行 的 一 条 主线 来 剖析 了 相关 代码 。 本 节 将 带领 读者 从 另 一 个 角度 ， 即 Client、Master 和 Worker 之 间 交 互 的 角度 来 剖析 代码 。 交 互 细节 如 图 4-3 
所 示 。 
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图 4-3 ”Client、Mastetr 和 Worker 之 间 的 交互 


下 面 继续 从 org.apache.spark.SparkContext 类 中 的 启动 调用 序列 看 起 。 





[SparkContext .scalal 


// start TaskScheduler after taskScheduler sets DAGScheduler reference in DAGScheduler's 
// constructor 

// 启 动 task scheduler 

_taskSscheduler.start () 

















TaskScheduler 的 start 函 数 实 现在 org.apache.spark.scheduler.TaskScheduleriImp| 类 中 。 








[TaskSchedulerImpl .scalal 





override def start() { 
// 启 动 backend 
backend. start () 














上 面 提 及 的 backend 的 启动 实现 关键 代码 位 于 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend 中 ， 有 具体 如 下 : 








[SparkDeploySschedulerBackend.scalal 

override def start() { 
super.start () 
launcherBackend.connect () 











client = new AppClient (sc.env.rpcEnv, masters, appDesc, this, conf) 
// 生 成 并 启动 Client 


client.start() 














org.apache.spark.deploy.client.AppClient 的 启动 及 关键 部 分 代码 如 下 : 





[AppClient.scalal 
def start() { 

// 生 成 ClientEndpoint 对 象 ， 并 启动 rpcEndpoint 

endpoint = rpcEnv.setupEndpoint ("AppClient", new ClientEndpoint (rpcE 
} 


[ClientEndpoint 类 的 部 分 实现 ] 



































override def onStart(): Unit = { 
try { 


// 向 Master 注 册 
registerWithMaster (1) 


} catch { 


其 中 ，registerWithMaster 调 用 tryRegisterAllMasters 函 数 来 完成 注册 ， 代 码 如 下 : 


[AppClient.scalal 

private def registerWithMaster (nthRetry: Int) { 
// 调 用 tryRegisterAllMasters 实 现 
registerMasterFutures tryRegisterAllMasters () 









































private def tryRegisterAllMasters(): Array[UEuture[ ]] = { 





val masterRef = rpcEnv.setupEndpointRef (Master.SYSTEM NAME, masterAgddress, Master .ENDPOINT NAME 
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//AppClient 向 Master 发 送 RegisterApplication 消 息 
masterRef .send (RegisterApplication (appDescription, sel]: 
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下 面 看 看 org.apache.spark.deploy.master.Master 收 到 消息 之 后 执行 了 那些 操作 。 


[Master .scala] 


// 注 册 Application 

case RegisterApplication (description, driver) => { 
// TODO Prevent repeated registrations from some driver 

if (state == RecoveryState.STANDBY) { 
// ignore, don't send response 

} else { 
logInfo ("Registering app " + description.name) 
val app = createApplication (description, driver) 





















































// 注 册 application 
registerApplication (app) 
logInfo ("Registered app " + description.name + " with ID " + app.id) 


// 持 久 化 app 的 元 数据 信息 ， 可 以 选择 持久 化 到 哪里 ， 或 者 不 持久 化 
persistenceEngine.addApplication (app) 
driver.send (RegisteredApplication (app.id, self) 


// 执 行 调度 为 待 分 配 资源 的 Application 分 配 资 源 ， 注 意 在 每 次 有 新 的 Application 加 入 或 者 新 的 资源 加 入 时 都 会 调用 schequle 进 行 调度 


























[ 呈 

















~ 一 








全 





























Schedule () 
} 
} 
private def schedule(): Unit = { 
if (state != RecoveryState.ALIVE) { return } 














// Drivers take strict precedence over executors 
val shuffledWorkers = Random.shuffle (workers) // Randomization helps balance drivers 
// 注 意 这 里 的 条 件 


































































































for (worker <- shuffledWorkers if worker.state == WorkerState.ALIVE) { 
for (driver <- waitingDrivers) { 
if (worker.memoryFr >= driver.desc.mem && worker.coresFr >= driver.desc.cores) { 
launchDriver (worker, driver) 
waitingDrivers -= driver 
} 
} 
} 
// 启 动 Executor 











startExecutorsOnWorkers () 


schedule () 为 处 于 待 分 配 资 源 的 Application 分 配 资 源 。 在 每 次 有 新 的 Application 加 入 或 者 新 的 资源 加 入 时 ， 都 会 调用 Schedule 进 行 调度 。 为 Application 分 配 资源 选择 worker (executor) ， 一 般 
有 两 种 策略 : 


1) 尽量 打 散 : 即 一 个 Application 尽 可 能 多 地 分 配 到 不 同 的 节点 。 这 个 可 以 通过 设置 spark.deploy.spreadOut 来 实现 ， 默 认 值 为 true， 即 尽量 打 散 。 
2) 尽量 集中 : 即 一 个 Application 尽 量 分 配 到 尽 可 能 少 的 节点 。 
对 于 同一 个 Application， 它 在 一 个 Worker 上 只 能 拥有 一 个 Executor， 但 这 个 Executor 可 能 拥有 和 多 于 1 个 的 core。 


下 面 看 看 launchExector 的 代码 实现 。 


[Master.scalal 
private def launchExecutor (worker: ee exec: ExecutorDesc): Unit = { 
log Ol Do eg executor " + exec. Id + " on worker " + worker.id) 


/7 更 新 worker 的 信息 息 ， 可 用 a 分 配 的 executor 占 用 的 


worker .addExecutor (exec) 

































































// 向 worker 节 点 发 送 LaunchExecutor 消 息 请 求 启动 Executor 
worker.endpoint.send (LaunchExecutor (masterUrl, exec.application.id, exec.id, exec.application.desc, exec.cores, exec.memory)) 

















/ /通知 AppcClient 已 添加 了 Executor 
exec.application.driver.send (ExecutorAdded (exec.id, worker.id, worker.hostPort, exec.cores, exec.memory) ) 














下 面 继续 剖析 Worker 节 点 收 到 消息 后 的 主要 操作 ， 代 码 片 段 如 下 : 


[worker .Scala] 


override def receive: PartialFunction[Any, Unit] = synchronized { 




















// 处 理 LaunchExecutor 消 息 









































case LaunchExecutor (masterUrl, applId, execId, appDesc, cores , memory ) => 
if (masterUrl != activeMasterUrl]l) 
logWarning ("Invalid Master (" masterUrl + ") attempted to launch executor.") 
} else { 
// 创 建 executor 工 作 目 录 
val executorDir = new File (workDir, appld + "/" + execId) 
if (lIexecutorDir.mkdirs()) { 
throw new IOException("Failed to create directory " + executorDir) 














// 包 装 成 ExecutorRunner 
val manager = new ExecutorRunner( 
appldgd, 
execId, 
appDesc.copy (command = Worker.maybeUpaateSSLSettings (appDesc.command, coni 
COres ， 
memory ， 
self, 
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workerTI 
host, 
webUi .boundPort, 
publicAddress, 
sparkHome, 
executorDir, 
workerUri, 

conf, 
appLocal 


gd, 











Dirs, 





ExecutorState .LOADING) 





d + EX/ 





executors (apPI execId) 








// 启 动 ExecutorRunner 
manager.start () 














// 累 计 资 源 使 用 量 
CoresUsed += Cores 
memoryUsed += memory 








= manager 


// 向 Master 发 ExecutorStateChanged 消 息 





sendToMaster (ExecutorStateChanged (app] 





[d, exec] 








[d, manager.state, None, None)) 


由 上 面 程 序 解 析 可 以 看 出 ，Worker 接 到 来 自 Master 的 LaunchExecutor 的 消息 后 ， 会 创建 org.apache.spark.deploy.worker.ExecutorRunner。Worker 会 记录 本 身 资源 的 使 用 情况 ， 包 括 已 经 使 用 的 
CPU core 数 、memory 等 ， 但 是 这 个 统计 只 是 为 了 展现 web UI。Master 本 身 会 记录 Worker 的 资源 使 用 情况 ， 无 须 Worker 江 报 。Worker 与 Master 之 间 的 心跳 仅仅 是 为 了 报 活 ， 不 会 携带 其 他 的 信息 。 


下 面 深 入 ExecutorRunner 类 ， 





private[worker] def start() { 
























































分 析 start 函 数 的 实现 。 





























// 创 建 thread， 其 中 run 函 数 调用 了 fetchAndRunExecutor 隙 数 实现 

workerThread = new Thread ("ExecutorRunner for " + fullIid) { 
override def run() { fetchAndRunExecutor() } 

} 

// 启 动 thread 

workerThread.start () 

// Shutdown hook that kills actors on shutdown. 

shutdownHook = ShutdownHookManager.addShutdownHook { () => 





killProcess (Some ("Worker shutting down")) } 


} 
private def fetchAndRunExecutor () 
py 
// Launch the process 
val builder = 























CommandUtils.buildProcess] 


{ 











command = builder.commang () 





Val 











memory SparkHome .getAbsolutePath， 














logInfo(s"] 





lder.directory (executorDir) 




















builder.environment .put ("SPARK 


In case we are running this f 











// parent process for the execut 








tor command 


























builder.environment .put ("SPARK . 


// Add webUI 
val baseUrl = 





Jog urils 


s"http://$publicAddress:$webUiPort/logPage/?app] 
] 1 STDERR". 





builder.environment .put ("SPARK 








,OG UR 

















builder.environment .put ("SPARK 


LOG URI 


























// 启 动 进程 process 
process = builder.start 
val header = "Spark 
formattedCommangd, 





) 








nm 一 nm 大 40) 





// 





val stdout = new File (executorDir, 
stdoutAppender = FileAppengder (process.getIinputSstream, 

















val stderr = new File (executorDir, 





Redirect its stdout and stderr to 


files 
"stdout") 








"stderr") 


Files.write (header, stderr, UTF 8) 








stderrAppender = FileAppendgder (process.getErrorStream, 








// Wait 
// or with nonzero exit code 


for it to exit; executor may exi 








val exitCode = process.waitFor () 














EXITED 





state = ExecutorState. 











val message = "Command exited with code " 






































// 发 消息 





WOLTKer .Send (ExecutorStateChanged (app] 


ExecutorStateChanged 通 知 Master 状 态 变 更 
[d, execI 





) 





Executor Command: %Ss\nsSs\n\n". 


formattedCommand = command.asScala.mkSstring (WW\"™, WY AI INI) 
aunch command: $formattedCommand" 








LAUNCH WITH SCALA"， "0") 








[d=$appld&executorId=$exec] 


s"$ {baseUrl}stderr") 





t with code 0 


+ exitCode 








, STDOUT", s"$ {baseUrl}stdout") 


format ( 





stdout, 


sy 
— 


CO 





-一 


stderr, conm 





Builder (appDesc.command, new SecurityManager (Con: 
substituteVariables) 





Fn 
~ 一 
~ 


EXECUTOR DIRS", appLocalDirs.mkString (File.pathSeparator)) 
rom within the Spark Shell, avoid creating a "scala" 


[d& logType=" 





(when driver instructs it to shutdown) 








d, state, Some (message), Some (exitCode))) 


至 此 ，Executor 启 动 完 成 。 类 似 地 ， 读 者 可 以 自行 阅读 Spark Core 代 码 ， 加 深 对 Spark 机 制 实现 的 理解 。 此 处 限于 篇 幅 ， 不 再 详 述 。 


4.4 Shuffle 触 帮 


第 3 章 介绍 了 shuffle 的 基本 概念 与 原理 。 下 面 从 源码 的 角度 ， 进 一 步 剖 析 Shuffle 的 触 尼 及 其 他 重要 知识 点 。 


4.4.1 触发 Shuffle Write 


通过 前 面 章 节 的 讲解 ， 我 们 知道 Mapper 实 际 上 是 一 个 任务 。 在 前 面 讲解 Spark 调 度 时 讲 过 ，DAG 调 度 器 会 在 一 个 Stage 内 部 划分 任务 。 在 实际 过 程 中 ， 会 根据 Stage 的 不 同 ， 得 到 ResultTask 和 
shuffleMapTask 两 类 任务 。ResultTask 会 将 计算 结果 返回 给 Driver，shuffleMapTask 则 将 结果 传递 给 Shuffle 依 赖 中 的 子 RDD， 并 将 RDD 划 分 为 多 个 buckets， 这 个 操作 基于 ShuffleDependency 中 指定 
的 partitioner 来 完成 。 所 以 这 里 先 从 ShuffleMapTask 入 手 ， 来 剖析 Mapper 的 大 致 工作 流程 。 请 读者 阅读 如 下 代码 : 








private[spark] class Shu 
stageId: Int, 
stageAttemptId: Int, 
taskBinary: Broadcast 
p 

@ 


fleMapTa 


















































artition: Partition, 








internalAccumulators: Segq[lAccumula 





extends Task[lMapStatus] (stage 





SK ( 


[ArraylByte]], 








transient private Var locs: SeqlTaskLocationl] 
tor[Longl]]) 


~ 





Id, stageAttempt] 


[d, partition.index, internalAccumulators) 





override def runTask (context: TaskContext): MapStatus = { 


// Deserialize the 














RDD using the broadcast variable. 

















val deserializeStartTime = System.currentTimeMillis() 
val ser = SparkEnv.get.closureSerializer.newIinstance() 
val (rdd, dep) = ser.deserialize[ (RDD[ ], ShuffleDependency[ ， | 





metrics = Some (context .ta 


skMetrics) 

















with Logging { 











Buf 





Bytel 











fer .wrap (七 aSK] 








Binary.value), Thread.currentThread.getContextClassLoader) executorDeserialiyz 











Var writer: ShuffleWriter[Any, Any] = null 
try 1 








/* 从 ShuffleManager 实 例 中 获取 该 ShuffleWriter 对 象 */ 
val manager = SparkEnv.get.shuffleManager 
writer = manager.getWriter[Any, Any] (dep.shu 


/* 触发 shuffle 写 操作 */ 
writer.write (rdd.iterator (Partition context) .asInstanceoOf [Iterator[ <: Product2[Any, Any]]]) 
writer.stop(success = true) .get 

} “Gatet 

case e: Exception => 

try { 

if (writer != null) { 

writer.stop(success = false) 






































fleHandle, partitionId, context) 







































































} 
| cateh 1 
Case e: Exception => 
log.debug ("Could not stop writer", e) 





} 
































throw e 
} 
} 
override def preferredLocations: Sed[TaskLocation] = preferredLocs 
override def toString: String = "ShuffleMapTask (%$d, %d)".format (stageld, partitionId) 





























由 于 一 个 任务 对 应 当前 阶段 末 RDD 内 的 一 个 分 区 ， 因 此 通过 rdd.iterator (partition，context) 可 以 计算 得 到 该 分 区 的 数据 。 然 后 执行 Shuffle Write ( 写 操作 ) ， 该 操作 由 一 个 ShuffleWriter 对 象 实 
例 通 过 调用 write 接口 完成 ， 在 上 面 代码 段 中 已 说 明 ，Spark 从 shuffleManager 实 例 中 获取 该 ShuffleWriter 对 象 。 


在 这 部 分 的 代码 实现 中 ，Spark 提 供 的 Shuffle 机 制 有 两 种 ， 那 么 同样 地 ，Shuff-l-e-Manager 也 有 两 个 子 类 : HashshuffleManager 和 和 SortShuffleManager 


ShuffleManager 用 于 提供 ShuffleWriter 和 ShuffleReader， 即 Shuffle 写 过 程 和 Shuffle 读 过 程 。 那 么 同样 地 ，HashSshuffleManager 也 提供 HashshuffleWriter 和 HashshuffleReader。 相 应 地 
SortShffleManager 提 供 了 SortShuffleWriter 和 HashShuffleReader (注意 ， 并 非 SortShuffleReader) 。 细 心 的 读者 也 许 已 经 发 现 ，Hash Shuffle 和 Sort Shuffle 的 唯一 区 别 在 于 Shuffle 写 过 程 不 同 ， 它 
们 读 的 过 程 是 完全 一 样 的 。 


4.4.2 触发 Shuffle Read 


本 节 继 续 探索 Shuffle read ( 读 操 作 ) 触发 。 在 Spark 实 现 中 ， 聚 合 器 中 的 三 个 方法 是 在 PairRDDFunctions.combineByKey 方 法 中 指定 的 。 事 实 上 当 新 的 RDD 与 旧 的 RDD 二 者 分 区 器 不 同时 ， 会 生成 一 
个 ShuffledRDD。 下 面 给 出 combineByKey 的 代码 实现 。 








def combineByKey[C] (createCombiner: V => C, 
mergeValue: (C, V) => Cr 
mergeCombiners: (C, C) => C, 
partitioner: Partitioner, 
mapSideCombine: Boolean = true, 
serializer: Serializer = null): RDD[ (K, C)] = self.withScope 1 
require (mergeCombiners != null, "mergeCombiners must be defined") 
if (keyClass.isArray) { 
if (mapSideCombine) { 
throw new SparkException("Cannot use map-side combining with array keys.") 
} 
if (partitioner.isInstanceOf [HashPartitioner]) { 
throw new SparkException("Default partitioner cannot partition array keys.") 



























































} 
} 
val aggregator = new Aggregator[K, V, Cj] ( 
self.context.clean (createCombiner), 
self.context.clean (mergeValue), 
self.context.clean (mergeCombiners)) 










































































if (self.partitioner == Some (partitioner)) 1{ 
self.mapPartitions (iter => { 
val context = TaskContext .get () 
new InterruptibleIlterator (context, aggregator.combineValuesByKey (iter, context)) 


























}, preservesPartitioning = true) 
} else { 


/* 分 区 器 不 同 ， 此 时 产生 了 ShuffledRDD */ 

new ShuffledRDDI[K, V, C] (self, partitioner) 
.SetSerializer (serializer) 

.SetAggregator (aggregator) 
.SetMapSideCombine (mapSideCombine) 





















































细心 的 读者 看 到 这 里 可 能 想 知道 如 何 得 知 ShuffledRDD 采 取 什 么 办 法 来 获取 分 区 数据 。 让 我 们 来 看 看 ShuffledRDD 类 的 具体 实现 ， 代 码 片 段 如 下 : 





/* ShuffledRDD.scala */ 














QDeveloperApi 

class ShuffledRDDIK, V, C]( 
@transient Var prev: RDD[ <: Product2[K, VI]], part: Partitioner) 
extends RDDI[ (K, C)] (prev.context, Nil) { 

















/* 此 处 设 定 RDD shuffle 的 序列 化 器 */ 









































def setSerializer (serializer: Serializer): ShuffledRDD[K, V, C] = { 
this.serializer = Option (serializer) 
this 























/* 设 定 RDD shuffle 的 key 排 序 */ 

def setKeyOrdering (keyOrdering: Ordering[K]): ShuffledRDD[K, V, Cl = { 
this.keyOrdering = Option (keyOrdering) 

this 





























/* 为 RDD shuffle 设 定 aggregator*/ 

def setAggregator (aggregator: Aggregator[K, V, C]): ShuffledRDD[K, V, C] = { 
this.aggregator = Option (aggregator) 

this 
































/* 为 RDD shuffle 设 定 mapSideCombine flag */ 





























def setMapSideCombine (mapSideCombine: Boolean): ShuffleqRDDIK，V C] = { 
this.mapSideCombine = mapSideCombine 
this 

} 

override def getDependencies: Seq[Depenaqency[ ]] = { 























List (new ShuffleDependency (prev, part, serializer, keyOrdering, aggregator, mapSideCombine)) 


} 


override val partitioner = Some (part) 








override def getPartitions: Array[Partition]l = { 
Array.tabulate[Partition] (part.numPartitions) (i => new ShuffledRDDPartition (i)) 























} 
/* 此 处 触发 shuffle read */ 


override def compute (split: Partition, context: TaskContext): Iterator[(K，C)] = { 



































val dep = dependencies.head.asInstanceOf [ShuffleDependencyl[lK, V, Cll]re 





























SparkEnv.get.shu fleHandle, split.index, split.index + 1, context) 
.read () 


.asInstanceOf [Iterator[ (K, C)1]1] 


fleManager .getReader (dep. shu 


























} 


override def clearDependencies() { 
super.clearDependencies () 


prev = null 

















通过 上 述 shuffledRDD 的 具体 代码 实现 可 以 看 出 ， 触 发 Shuffle 读 过 程 实际 上 与 触发 Shuffle 写 过 程 非 常 类 似 。 二 者 首先 从 ShuffleManager 中 获取 ShuffleReader， 然 后 通过 调用 ShuffleReader 的 read 
接口 拉 取 (Shuffle Fetch) 并 计算 特定 分 区 中 的 数据 。 


4.5 _ Spark 存储 策略 


在 Spark 开 发 实践 中 ， 开 发 者 免不了 要 和 RDD 打 交道 。Spark 应 用 即 为 通过 调用 RDD 提 供 的 各 种 transformation 和 action 接 口 来 实现 。Spark 为 了 提高 抽象 层次 ， 建 立 了 RDD 的 概念 ， 也 因此 在 接口 和 实 
现 之 间 降 低 了 耦合 ， 用 户 无 须 关 心底 层 的 实现 。 但 是 读者 也 许 会 问 ，RDD 提 供给 我 们 的 仅仅 是 接口 的 调用 ， 而 操作 的 数据 如 何人 存放 及 访问 ”这 部 分 的 实现 是 繁 么 做 的 ”这 就 需要 涉及 Spark 存 储 机 制 。 本 节 
从 Spark 存 储 机 制 源码 的 角度 做 一 些 提纲 击 领 的 剖析 和 探索 。 限 于 篇 幅 ， 如 果 读 者 要 深入 每 一 个 细节 ， 就 要 求 读 者 深入 阅读 源码 。 


RDD 类 是 开发 者 执行 具体 操作 的 类 ， 也 是 存储 机 制 的 入 口 。 这 中 间 涉 及 了 2 个 重要 的 类 ， 即 CacheManager 类 和 BlockManager 类 ， 这 两 个 类 概要 介绍 如 下 : 
1) CacheManager 类 : 是 RDD 和 实际 查询 之 间 的 中 间 层 。 

` 将 RDD 的 信息 传递 给 BlockManager。 

. 保证 每 个 节点 不 会 重复 读 取 RDD， 并 提供 并 发 控制 。 

2) BlockManager 类 提供 了 实际 的 查询 接口 ， 通 过 MemoryStore、DiskStore 和 TachyonStore 三 个 类 管理 具体 的 缓存 位 置 。 


实际 上 RDD 中 的 iterator 方 法 是 缓存 读 取 机 制 的 入 口 。 关 于 iterator 的 实现 请 参见 如 下 代码 序列 : 









































final def iterator (split: Partition, context: TaskContext): JIterator[T] = { 
if (storageLevel != StorageLevel.NONE) { 
/* 这 里 调用 cacheManager 的 方法 来 查询 */ 





SparkEnv.get.cacheManager.getOrCompute (this, split, context, storageLevel) 
} else { 
/* 重新 计算 */ 


computeOrReadCheckpoint (split, context) 











由 上 述 代码 实现 不 难 发 现 ， 当 人 存储 级 别 不 为 NONE 时 ， 会 以 Partition 为 分 片 查询 缓存 ， 否 则 就 调用 computeOrReadCheckpoint 重 新 计算 。 用 CacheManager 类 的 getOr-Compute 接 口 调用 
BlockManager 类 的 get 方 法 来 获取 数据 。 在 getOrCompute 函 数 中 ， 顶 层 抽 和 象 中 的 Partition 与 底层 的 Block 形 成 了 联系 。 


下 面 进一步 剖析 这 些 存 储 机制 相 关 的 核心 类 。 


4.5.1 CacheManager 职 能 


在 Spark 的 存储 机 制 实现 中 ，RDD 在 进行 计算 时 ， 通 过 CacheManager 来 获取 数据 ， 并 通过 CacheManager 来 存储 计算 结果 。CacheManager 负 责 将 RDD 的 partition 内 容 传 递 给 BlockManager， 并 且 
确保 同一 节点 一 次 只 会 载 入 一 次 该 RDD。 在 前 面 所 讲 的 RDD 的 iterator 方 法 中 ， 使 用 了 CacheManager 类 的 getOrCompute 方 法 来 执行 缓存 查询 ， 本 节 以 这 个 方法 为 入 口 ， 来 探讨 CacheManager 的 职能 。 





def getOrCompute [ 工 ] 人 
rdd: RDD[T] ， 
partition: Partition, 
context: TaskContext, 
storageLevel: StorageLevel): Iterator[T] = { 
































val key = RDDBl1ockId (rdd.id, partition.index) 
JogDebug (s"Looking for partition S$key") 
blockManager.get (key) match { 

case Some (blockResult) => 


/* 分 区 已 包含 数据 ， 因 此 直接 返回 值 即 可 */ 

val existingMetrics = context.taskMetrics 
.getIinputMetricsForReadMethod (blockResult .readMethod) 

existingMetrics.incBytesRead (blockResult .bytes) 










































































val iter = blockResult.data.asInstanceOf [Iterator [IT] ] 
new InterruptibleIlterator[T] (context, iter) { 
override def next(): T= { 














existingMetrics.incRecordsRead (1) 
delegate.next () 


} 








} 
case None => 
/* 获取 载 入 分 区 的 锁 */ 
/* 如 果 其 他 线程 已 持 有 锁 ， 那 么 等 待 它 执行 完成 */ 
val storedValues = acquireLockForPartition[T] (key) 
if (storedValues.isDefined) { 
return new InterruptibleIterator[T] (context, storedValues .get) 


} 


/* 载 入 分 区 */ 
try { 
logInfo(s"Partition S$key not found, computing it") 
val computedValues = rdd.computeOrReadCheckpoint (partition, context) 








































































































/* 如 果 该 任务 在 本 地 运行 则 不 必 保 存 结果 */ 
if (context.isRunningLocally) { 
return computedValues 


/* 缓存 value 并 追踪 blocKk 状 态 更 新 */ 

val updatedBlocks = new ArrayBuffer [ (BlockId, BlockStatus)] 

val cachedValues = putInBlockManager (key, computedValues, storageLevel, updatedBlocks) 
val metrics = context.taskMetrics 
val lastUpdatedBlocks metrics.updatedBlocks .getOrElse (Seql[ (BlockId, BlockSstatus)|] () ) 
metrics.updatedBlocks Some (lastUpdatedBlocks ++ updatedBlocks .toSeq) 

new InterruptibleIlterator (context, cachedValues) 





















































































































































} tinally 1 
lJoading.synchronized { 
loading.notifyAll () 
lJoading.remove (key) 














从 上 述 代 码 片段 可 以 看 出 ， 首 先 调用 RDDBlockld 方 法 将 要 查询 的 Patition 转 化 成 Blockld， 进 而 调用 BlockManager 类 的 get 方 法 进行 查询 。 如 果 查 询 成 功 ， 那 么 会 把 查询 结果 以 task 为 单位 储存 起 来 。 
不 难 发 现 ， 即 使 储存 级 别 不 是 NONE， 也 有 可 能 无 法 从 缓存 中 查询 到 。 另 外 ， 在 查询 过 程 中 会 出 现 并 发 ， 因 此 需要 加 锁 。 如 果 缓 存 未 被 命中 ， 那 么 会 调用 RDD 中 的 computeOrReadCheckpoint 方 法 来 计 
算 。 这 里 需要 注意 的 是 ， 如 果 task 在 本 地 运行 ， 则 直接 返回 计算 结果 ， 否 则 调用 putlnBlockManager 上 传 缓存 ， 同 时 跟踪 缓存 的 status 来 保证 缓存 的 一 致 性 。 下 面 继续 探究 putlnBlockManager 的 实现 逻 
辑 ， 在 代码 实现 的 关键 点 上 已 经 添加 了 注释 来 帮助 读者 理解 。 








private def putIinBlockManager[T] ( 
key: BlockId， 
values: Iterator[T], 
level: StorageLevel, 
updatedBlocks: ArrayBuffer [ (BlockId, BlockStatus)], 
effectiveStorageLevel: Option[StorageLevel] = None): Iterator[T] = { 








































































































val putLevel effectiveStorageLevel .getOrElse (level) 
if (IputLevel.useMemory) { 


/* 
* 如 果 存 储 级 别 不 是 在 内 存 里 ， 那 么 可 以 直接 将 计算 结果 以 iterator 的 形式 传 给 BlockManager， 而 非 在 内 存 中 展开 
* 调用 其 putIterator 方 法 进行 储存 ， 否 则 要 先 在 MemoryStore 交 中 注册 
* 储存 结束 后 还 要 查询 一 下 保证 缓存 成 功 
* [注意 ] 此 处 的 putIterator 方 法 会 在 后 面 介绍 BlockManager 时 详细 介绍 
大 
/ 
updatedBlocks ++= 
blockManager .putIterator (key, values, level, tellMaster = true, effectiveStorageLevel) 
blockManager.get (key) match { 
case Some (V) => v.data.asInstanceOof [Iterator[T]] 
case None => 
logInfol(s"Failure to store S$key") 
throw new BlockException (key, s"Block manager failed to return cached value for S$key!") 






















































































































































































} else { 












































~ 








* 如 果 RDD 缓 存在 内 存 中 的 话 ， 那 么 不 能 直接 传递 iterator， 而 是 调用 putArravy 方 法 将 整个 数组 储存 起 来 。 
* 因为 将 来 这 个 partition 可 能 会 被 8 引 次 查询 之 前 从 内 存 中 删除 ， 这 样 会 导致 欠 代 器 失效 

* 另外 要 先 在 内 存 中 注册 ， 因 为 有 可 能 出 现 内 存 空间 不 够 的 OOM 异 常 。 出 现时 会 选择 一 个 合适 的 Partition 
* 落地 到 磁盘 上 。 选择 过 程 由 Wemorvstore unrol1Safely 进 行 。 

* [注意 ] 此 处 调用 的 putArray 方 法 会 在 后 面 详细 介 











































































































blockManager .memoryStore.unrollSafely (key, values, updatedBlocks) match { 
case Left (arr) => 


/* 已 成 功 地 展开 整个 partition， 因 此 缓存 在 了 内 存 中 */ 
updatedBlocks ++= 
blockManager .putArray (key, arr, level, tellMaster = true, effectiveStorageLevel) 
arr.iterator.asInstanceoOf [Iterator [T] ] 
case Right (it) => 


/* 内 存 空 间 不 够 ， 无 法 在 内 存 中 缓存 Partition */ 
val returnValues = it.asInstanceOf [Iterator [ 工 ] ] 


if (putLevel.useDisk) { 
logWarning(s"Persisting partition $key to disk instead.") 







































































































































































val diskOnlyLevel = StorageLevel (useDisk = true useMemory = false, useOffHeap false, deserialized = false, putLevel.replication) 
putInBlockManager[T] (key, returnValues, level, updatedBlocks, Some (diskOnlyLevel)) 

} else { 
returnValues 


4.5.2 BlockManager 职 能 
由 上 一 节 内 容 可 以 看 出 ，CacheManager 在 进行 数据 读 取 和 存 取 时 ， 主 要 是 依赖 BlockManager 接 口 来 操作 ，BlockManager 的 职能 是 决定 数据 是 从 内 存 (MemoryStore) ， 还 是 从 磁盘 
(DiskStore) 中 获取 ， 并 且 BlockManager 类 提供 getLocal 与 getRemote 方 法 ， 从 本 地 或 远程 查询 数据 。 在 getLocal 的 实现 中 调用 了 doGetLoca 仿 法， 因此 getLocal 可 以 看 作 是 doGetLocal 的 封装 。 


而 doGetLocal 会 先 通过 blockdld 获 得 blockinfo， 然 后 取出 此 block 的 存储 级 别 ， 进入 不 同 分 支 ， 如 memory、tachyon 或 disk。 而 memory 和 tachyon 本 质 都 是 在 内 存 中 存储 的 ， 但 disk 分 支 在 查 
询 到 结果 后 还 会 再 判断 这 个 block 原 来 的 存储 级 别 是 否 是 memory。 如 果 是 ， 那 么 将 这 个 block 载 入 内 人 存 。 下 面 来 看 看 do GetLocal 的 代码 实现 。 

















private def doGetLocal (blockId: BlockId，asBlLockResult: Boolean): Option[Any] = { 
val info = blockInfo.get (blockId) .orNull] 

if (info != null) { 
info.synchronized ({ 












































/* 检测 lblock 是 否 存 在 ， 在 小 概率 情况 下 ， 它 会 被 removeBlock 删 除 
* 即使 用 户 有 意 删 除 block， 此 处 的 条 件 分 支 依然 可 以 通过 

* 但 最 终 会 由 于 找 不 到 block 而 抛 出 异常 

大 
/ 

f (blockIinfo.get (blocklId) .isEmpty) { 
logWarning(s"Block $blockId had been removed") 
return None 


} 





















































lbs 















































如 果 有 其 他 线程 正在 写 该 plock， 那 么 等 待 */ 

F (linfo.waitForReady()) { 

// If we get here, the block write failed. 
logWarning(s"Block $blockId was marked as failure.") 
return None 


} 




































































val level = info.level 
logDebug (s"Level for block S$blockId is $level") 

















/* 在 内 存 中 查找 plock */ 
if (level.useMemory) { 
logDebug (s"Getting block $blockId from memory") 


val result = if (asBlockResult) { 















































memoryStore .getValues (blockId) .map (new BlockResult( , DataReadMethod.Memory, info.size)) 
} else { 

memoryStore .getBytes (blockId) 
} 


result match { 
case Some (values) => 
return result 
case None 三 > 
logDebug (s"Block $blockId not found in memory") 





























} 
. 


/* 在 外 部 block store 中 查找 block */ 
if (level.useOoffHeap) { 
logDebug (s"Getting block $blockId from ExternalBlockStore") 
if (externalBlockStore.contains (block1Id)) { 
val result = if (asBlockResult) { 
externalBlockStore.getValues (blockId) 
.map (new BlockResult( , DataReadMethod.Memory, info.size)) 








































































































externalBlockStore.getBytes (blockId) 








result match { 
case Some (values) => 
return result 
case None 三 > 
logDebug (s"Block $blockId not found in ExternalBlockStore") 



































/* 在 人 硬盘 上 查找 block， 必 要 时 将 其 载 入 内 存 */ 
if (level.useDisk) { 
logDebug (s"Getting block $blockId from disk") 
val bytes: ByteBuffer = diskStore.getBytes (blockId) match { 
case Some(b) => b 
case None => 
throw new BlockException\( 


blockId, s"Block $blockId not found on disk, though it should be") 













































































} 
assert (0 == bytes.position () ) 











if (llJevel.useMemory) { 


/* 若 block 不 该 被 保存 在 内 存 中 ， 则 直接 返回 */ 
if (asBlockResult) { 
return Some (new BlockResult (dataDeserialize (blockld, bytes), DataReadMethod.Disk, info.size)) 
} else { 
return Some (bytes) 


} 





















































} else { 
/* 否则 ， 在 memory store 中 保存 部 分 数据 */ 
if (!level.deserialized || !asBlockResult) { 














Gs i mory serialized" 或 当 block 应 该 在 内 存 中 被 缓存 
x* 为 对 象 示 

* 在 内 存 中 保存 部 分 字 节 (只 需要 序列 化 的 字 节 ) 

*/ 
memoryStore.putBytes (blockId, bytes.limit, () => { 





























/* 当 文件 大 于 内 存 剩余 空间 时 ， 触 发 OOM。 当 无 法 将 文件 放 入 memory store 时 ，copyForMemory 会 被 创建 */ 
val copyForMemory = ByteBuffer.allocate (bytes.1imit) 
copyForMemory .put (bytes) 

}) 


bytes .rewind () 
} 





















































if (lasBlockResult) { 
return Some (bytes) 

} else { 
val values = dataDeserialize (blockId, bytes) 
if (level.deserialized) { 























/* 在 返回 结果 之 前 先 缓存 */ 
val putResult = memoryStore .PutIterator ( 
blockId, values, level, returnValues = true, allowPersistToDisk = false) 


/* 当空 间 不 够 时 ， put 可 能 失败 */ 
putResult.data match { 
case Left (it) => 


return Some (new BlockResult (it, DataReadMethod.Disk, info.size)) 
case => 


/* 当 value 被 落地 到 硬盘 时 ， 抛 出 该 异常 */ 


throw new SparkException ("Memory store did not return an iterator!") 


















































} 


} else { 
return Some (new BlockResult (values, DataReadMethod.Disk, info.size)) 











} else { 

logDebug (s"Block $blockId not registered locally") 
} 
None 


} 











在 查询 过 程 中 ，BlockManager 不 会 直接 调用 底层 的 查询 水 数 ， 而 是 通过 Memory-Store、DiskStore 等 管理 类 代理 。getRemote 方 法 实际 也 是 doGetRemote 的 包装 。doGet-Remote 的 过 程 比较 
单 ， 就 是 先 获得 blockinfo， 然 后 查询 自己 在 集群 中 的 locations， 最 后 持续 依照 locations 将 blockinfo 发 送 给 远 端 ， 等 待 任 一 个 远 端 返回 数据 之 后 查询 结束 。 接 下 来 看 一 下 put 相 关 方 法 ， 在 前 面 我们 发 现 向 
BlockManager 提 交 存 储 调用 了 两 个 接口 : putArray 和 putlerator。 


事实 上 ， 两 个 函数 都 是 doPut 方 法 的 简单 封装 ， 在 它们 的 实现 中 调用 了 doPut 方 法 ， 因 此 下 面 重点 研究 doPut 方 法 的 实现 。 





private def dopPut( 
blockId: BlockId, 







































































































































































data: BlockValues, 

level: StorageLevel, 

ss Boolean = true, 

ffectiveStorageLevel: Option[StorageLevel|] = None) 

: eo ockId, BlockStatus)] = { 
require (blockId != null, "BlockId is null") 
require (lev != nul] gE level.isValid, "StorageLevel is null or invalid") 
ef fectiveStorageLevel .foreach { level => 

require(level != null && level.isValid, "Effective StorageLevel is null or invalid") 
}putInBlockManager 
val updatedBlocks = new ArrayBuffer [ (BlockId, BlockStatus)] 

















/* 依据 block 的 存储 级 别 而 正确 地 将 其 落地 到 硬盘 
* 然而 ， 除非 我 们 对 该 block 调 用 markReady 
* 否则 其 他 线程 无 法 对 该 block 调 用 get 方 法 





























val putBlockInfo = { 
1 tinfo = new BlockInfo(level, tellMaster) 
// Do atomically ! 
val oldBlockOpt = blockIinfo.putIfAbsent (blockId, tinfo) 
if (oldBlockOpt.isDefined) { 




























































































Re 





f (oldBlockOpt.get.waitForReady()) { 
logWarning(s"Block $blockId already exists on this machine; not re-adding it") 
return updatedBlocks 

} 


oldBlockOpt .get 
} else { 
tinfo 


} 


























} 


val startTimeMs = System.currentTimeMillis 











/* If we're storing values and we need to replicate the data, we'll want 


















































* access to the values, but because our put will read the whole iterator, there 
* will be no values left. For the case where the put serializes data, we'll 
* remember the bytes, above; but for the case where it doesn't, such as 
* deserialized storage, let's rely on the put returning an Iterator. 
x 
Var valuesAfterPput: Iterator[Any] = null 








// Ditto for the bytes after the put 


var bytesAfterput: ByteBuffer = null 
/* block 的 大 小 (单位 为 bytes) */ 


Var size = 0L 












































// The level we actually use to put the block 
val putLeve] ffectiveStorageLevel .getOrElse (level) 





























// If we're storing bytes, then initiate the replication before storing them locally. 
// This is faster as data is already serialized and ready to send. 
val replicationFuture = data match { 
case b: ByteBufferValues if putLevel.replication > 1 => 
// Duplicate doesn't copy the bytes, but just creates a wrapper 
val bufferView = b.buffer.duplicate() 
Future { 
// This is a blocking action and should run in futureExecutionContext which is a cached 
// thread pool 
replicate (blockId, bufferView, putLevel) 
} (futureExecutionContext 
case => null 


} 





































































































~ 一 














putBlockInfo.synchronized { 
logTrace ("Put for block %s took %s to get into synchronized block" 
.format (blockId, Utils.getUsedTimeMs (StartTimeMs) ) ) 





























var marked = false 
try { 





/* returnValues - 是 否 返 回 values 
* blockStore ”- 存放 values 的 存储 类 型 
a 
val (returnValues, blockStore: BlockStore) = { 
if (putLevel.useMemory) { 


* 先 存在 内 存 ， 即 使 设置 useDisk 为 true。 内 存 容量 不 够 时 ， 将 它 存储 到 硬盘 */ 


true, memoryStore) 
Tse 1 : 





























/ 

( 

else if (putLevel.useOffHeap) { 
// Use external block store 
( 

e 

% 



































false, externalBlockStore) 














se if (putLevel.useDisk) { 

/ Don't get back the bytes from put unless we replicate them 

(putLevel.replication > 1, diskStore 

} else 1{ 
assert (putLevel == StorageLevel .NONE 
throw new BlockException( 

blockId, s"Attempted to put block $blockId without specifying storage level!") 

















~ 一 














~ 一 





























} 
} 


// Actually put the values 
val result = data match { 
case IteratorValues (iterator) => 
blockStore.putIterator (blockId, iterator, putLevel, returnValues) 
case ArrayValues (array) => 
blockStore.putArray (blockId, array, putLevel, returnValues) 
case ByteBufferValues (bytes) => 
( 
U 
























































bytes.rewind 
blockStore.p 


~ 一 





























tBytes (blockId, bytes, putLevel) 








} 
size = result.size 
result.data match { 
case Left (newIterator) if putLevel.useMemory => valuesAfterPput newlterator 
case Right (newBytes) => bytesAfterPut = newBytes 
case => 


} 







































































// Keep track of which blocks are dropped from memory 
if (putLevel.useMemory) { 
result.droppedBlocks.foreach { updatedBlocks += |} 














} 





val putBlockStatus = getCurrentBlockStatus (blockId, putBlockIinfo) 


if (putBlockStatus.storageLevel != StorageLevel.NONE) { 
// Now that the block is in either the memory, externalBlockStore, or 















































































































































// disk store,let other threads read it, and tell the master about it. 
marked = true 
putBlockInfo.markReady (size) 
if (tellMaster) { 
reportBlockStatus (blockId, putBlockIinfo, putBlockSstatus) 

















updatedBlocks += ((blockId, putBlockStatus)) 
} 
} finally { 
// If we failed in putting the block to memory/disk, notify other 
// possible readers that it has failed, and then remove it from the 
// block info map. 
if (Imarked) { 
// Note that the remove must happen before markFailure otherwise 
// another thread could've inserted a new BlockInfo before we remove it. 
blockIinfo.remove (blockId) 
putBlockInfo.markFailure () 
JogWarning(s"Putting block $blockId failed") 
} 
} 
} 
lJogDebug ("Put block %s locally took %s".format (blockId, Utils.getUsedTimeMs (startTimeMs))) 
































































































































// Either we're storing bytes and we asynchronously started replication, or 
// we're storing values and need to serialize and replicate them now: 

















Ets 


(putLevel.replication > 1) { 
data match { 
case ByteBufferValues (bytes) => 
(replicationFuture != null) { 
Await.ready (replicationFuture, Duration.Inf) 
































ER 














} 
case => 

val remoteStartTime = System.currentTimeMillis 

// Serialize the block if not already done 

if (bytesAfterPut null) { 
if (valuesAfterPut null) { 
throw new SparkException ( 

U 


"Underlying put returned neither an Iterator nor bytes! This shouldn't happen.") 








HR 



















































































bytesAfterPut = dataSerialize (blockId, valuesAfterPut) 


} 
replicate (blockId, bytesAfterPut, putLevel) 











logDebug ("Put block %s remotely took $s" 
.format (blockId, Utils.getUsedTimeMs (remoteStartTime),)) 

















LU 





1ockManadger .qispose (bytesAfterPut) 











上 


F (putLevel.replication > 1) 1{ 

logDebug ("Putting block %s with replication took %s" 
.format (blockId, Utils.getUsedTimeMs (StartTimeMs) ) ) 
} else { 
logDebug ("Putting block %s without replication took $s" 
.format (blockId, Utils.getUsedTimeMs (StartTimeMs) ) ) 










































































} 


updatedBlocks 





doPut 方 法 的 职能 可 以 总 结 为 如 下 几 点 : 
1) 为 block 创 建 Blocklnfo 结 构 体 存储 block 相 关 信息 ， 同 时 将 其 加 锁 使 其 不 能 被 访问 。 
2) 根据 block 的 replication 数 决定 是 否 将 该 block 拷 贝 到 远 端 。 


3) 根据 block 的 storage level 决 定 将 block 存 储 到 内 存 还 是 硬盘 上 ， 同 时 解锁 标识 该 block 已 经 ready， 可 被 访问 。 


4.5.3 DiskStore 与 DiskBlockManager 类 


本 节 继 续 探 索 实 现 具 体 存 储 落地 到 硬盘 的 过 程 。 首 先 介绍 两 个 重点 类 : Diskstore 和 DiskBlockManager。 


事实 上 DiskStore 虽 然 承 担 着 将 block 存 储 到 硬盘 上 的 工作 ， 但 它 仍然 没有 直接 调用 底层 操作 ， 而 是 用 DiskBlockManager 来 管理 。 在 DiskBlockManager 实 现 中 通过 创建 数组 以 哈 希 表 的 形式 保存 了 文 
件 的 路 径 ， 而 查找 文件 路 径 是 通过 getFile 完 成 的 ， 在 数组 中 ， 以 hash 的 方式 来 查找 文件 所 在 路 径 。 下 面 是 getFile 的 实现 。 











def dgetFile (filename: String): File = 1 
// Figure out which local directory it hashes to, and which subdirectory in that 
val hash = Utils.nonNegativeHash (filename) 
val dirId = hash % localDirs.length 
val subDirId = (hash / localDirs.length) % subDirsPerLocalDir 


/* 如 果子 目录 不 存在 则 创建 它 */ 
val subDir = subDirs (dirId) .Synchronized { 
val old = subDirs (dirId) (subDirId) 






















































































if (old != null) { 
old 

} else { 
val newDir = new File(localDirs (dirId), "$02x".format (subDirId)) 
if (InewDir.exists() && !InewDir.mkdir()) { 














throw new IOException(s"Failed to create local dir in $newDir.") 











subDirs (dirId) (subDirId) = newDir 
newDir 
} 
} 








new File (subDir, filename) 


} 


getFile 方 法 先 根据 filename 计 算出 hash 值 ， 将 hash 取 模 获 得 dirld 和 subDirld， 进 而 在 subDirs 中 找 出 相应 的 subDir。 如 果 不 存 在 ， 则 创建 一 个 subDir， 最 后 以 subDir 为 路 径 、filename 为 文件 名 创建 
文件 对 象 ，DiskBlockManager 使 用 此 文件 对 象 将 block 写 入 硬盘 或 从 硬盘 中 读 出 block， 详 细 请 参见 DiskStore.scala 文 件 。 


4.5.4 MemoryStore 类 


本 节 研 究 MemoryStore 类 的 实现 。MemoryStore 类 的 职能 是 将 block 存 储 到 内 存 ， 一 般 采 用 如 下 两 种 方式 : 
1) 以 数组 的 方式 ， 数 组 中 保存 了 Java 对 象 的 反 序列 化 对 象 。 


2) 以 序列 化 的 ByteBuffers 方 式 保存 。 


在 MemoryStore 类 的 实现 中 很 少 有 比如 创建 文件 及 文件 读 取 等 操作 。 但 在 MemoryStore 类 中 ， 它 维护 了 一 个 java.util.LinkedHashMap[Blockld，MemoryEntry]， 将 blockld 映 射 到 内 存 的 入 口 地 址 。 
如 此 一 来 ， 读 取 block 会 大 大 简化 ， 因 为 直接 操作 该 哈 希 表 。 在 保存 block 至 内 存 这 个 功能 点 上 ，MemoryStore 类 提供 了 putBytes、putArray 等 方法 。 查 阅 这 几 个 方法 的 实现 后 发 现 它们 都 是 对 tryToPut 方 
法 的 封装 。 因 此 下 面 重点 介绍 tryToPut 方 法 的 代码 实现 。 














private def tryToPut( 
blockIid: BlockIg, 
value: () => Any, 


size: Long, 
deserialized: Boolean): ResultWithDroppedBlocks = { 


























Var putSuccess = false 
val droppedBlocks = new ArrayBuffer [ (BlockId, BlockStatus)] 
































accountingLock.synchronized { 


























val freeSpaceResult = ensureFreeSpace (blockId, size) 
val enoughFreeSpace = freeSpaceResult.success 
droppedBlocks ++= freeSpaceResult.droppedBlocks 














if (enoughFreeSpace) { 
val entry = new MemoryEntry (value(), size, deserialized) 
entries.synchronized { 

entries.put (blockId, entry) 

currentMemory += size 














} 


val valuesOrBytes = if (deserialized) "Values" else "bytes" 


logInfo("Block %s stored as %s in memory (estimated size %s, free %s)".format (blockId, valuesOrBytes, Utils.bytesToString(size), Utils.bytesToString (freeMemory) ) ) 
PutSuccess = true 


} else { 
























































/* 告诉 block manager 无 法 将 block 放 入 内 存 中 ， 该 plock 可 被 落地 到 硬盘 (如 果 该 block 人 允许 在 硬盘 中 保存 的 话 ) */ 
Jazy val data = if (deserialized) { 

Left (value () .asInstanceOf [Array [Any]|]) 
} else { 


Right (value () .asInstanceOf [ByteBuffer] .duplicate () ) 















































} 
val droppedBlockStatus = blockManager.dropFromMemory (blockId, () => data) 











} 


} 


Resu] 


droppedqd] 














BlockStatus.foreach { status => droppedBlocks += ( (blockId, status)) } 








// Release the unroll memory used because we no longer need the underlying 
// Array 
releasePendingUnrollMemoryForThisTask () 

















twWithDroppedBlocks (putSuccess, droppedBlocks) 





从 上 述 tryToPut 方 法 实现 中 不 难看 出 ， 它 首先 调用 ensureFreespace 方 法 ， 确 保留 出 足够 的 空间 ， 然 后 函数 依据 在 不 交换 空间 的 情况 下 ， 内 存 是 否 足够 而 分 为 以 下 两 支 : 


1) 若 内 人 存 足够 ， 那 么 直接 将 数据 写 入 内 存 中 ， 然 后 将 entry 加 入 entries 哈 希 表 。 


2) 若 内 存 不 够 ， 可 将 这 个 block 直 接 写 到 硬盘 中 。 


至 此 ， 读 者 也 许 会 问 ” 在 什么 情况 下 会 导致 内 存 不 够 ”并 且 被 交换 的 块 该 如 何 选择 ”下 面 继续 研究 ensureFreeSpace 方 法 的 实现 。 


private def 


} 


logIni 








blockIdToAdd: 











space: Long): 
[nfo(s"ensureFreeSpace ($space) called with curMem=$currentMemory, maxMem=$maxMemory") 





ensureFreeSpace( 


BlockId, 
ResultWithDroppedBlocks = { 























Val 





下 


} 


// Take in 
// blocks and m 
1 taskAttemptI 
val 


Va 


droppedqd] 











i 


(space > maxMemory) { 
Info (s"Will] 
































Blocks = new ArrayBuffer [ (BlockId, BlockStatus)] 

















not store $blockIdToAdd as it is larger than our memory limit") 

















return ResultWithDroppedBlocks (success = false, droppedBlocks) 





to account the amount of memory currently occupied by unrolling 
inus the pending unroll memory for that block on current thread. 




















actualFreeMemory = freeMemory - currentUnrollMemory + 








d= currentTaskAttemptId () 

















pendingUnrollMemoryMap .getOrElse (taskAttemptId, 0L) 











val 
val 











F (actualFreeMemory < space) { 














rddToAdd = getRddId (blockIdToAdd) 


selectedB] 

















ocks = new ArrayBuffer|[BlockId] 





Var 














selectedMemory = 0L 




















// This is synchronized to ensure that the set of entries is not changed 


// 


// that can lead to exceptions. 
entries.synchronized { 

tor ntries.entrySet () .iterator () 
while (actualFreeMemory 


val itera 





es 

















(because of 





getValue or getBytes) while traversing the iterator, as 























selectedMemory < space && iterator.hasNext) { 





val pair = iterator.next() 



































val blockId = pair.getKey 

if (rddToAgdd.isEmpty || rddToAdd != getRddId (block1d)) { 
selectedBlocks += blockId 
selectedMemory += pair.getValue.size 






































return Resu] 


f (actualFreeMemory + selectedMemory >= space) { 
logInfo(s"$1 
for (blockId <- selectedBlocks) { 











selectedBlocks.size} blocks selected for dropping") 

















entries.synchronized { entries.get (blockIid) } 


// This should never be null as only one task should be dropping 


// blocks 








and removing entries. However the check is still here for 























ty. 
!= null) { 











val data = if (entry.deserialized) { 











Left (entry.value.asIinstanceOf [Array[Any]]) 





} else { 
Right ( 


























entry.value.asInstanceOf [ByteBuffer] .duplicate ()) 














val droppedBlockStatus = blockManager.dropFromMemory (blockId, data) 
droppedBlockStatus.foreach { status => droppedBlocks += ((blockId, status)) } 




















Es 














thDroppedBlocks (success = true, droppedBlocks) 











logInfo (s"Wi 
return Resul 




















11 not store $blockIdToAgdd as it would require dropping another block " + "from the same RDD") 
thDroppedBlocks (success = false, droppedBlocks) 








Els 





























ResultWithDroppedBlocks (success = true, droppedBlocks) 








从 ensureFreeSpace 方 法 的 实现 流程 中 可 以 看 出 ， 首 先 它 会 维护 一 个 selectedBlocks 数 组 ， 该 数组 中 保存 了 可 供奉 换 的 block。 另 外 selectedMemory 表 示 能 够 空 出 的 最 大 空间 。 而 selectedBlocks 数 组 
的 产生 过 程 是 先 遍 历 entries 哈 希 表 ， 将 不 属于 当前 待 加 入 RDD 的 block 加 进去 ， 在 尽量 保证 当前 RDD 完 全 缓存 到 内 存 中 的 前 提 下 ， 使 用 了 FIFO 淘 汰 机 制 。 当 selectedBlocks 被 生成 之 后 ， 先 判断 如 果 全 部 释 
放空 间 是 否 足够 ， 如 果 不 够 则 返回 ; 如 果 足 够 ， 那 么 会 依次 将 里 面 的 block 交 换 出 内 存 ， 直 到 产生 的 空余 空间 足够 。 


本 节 通 过 分 析 源 码 来 对 Spark 的 缓存 策略 做 了 深入 探索 。 当 开发 者 调用 RDD.iterator 时 会 自动 触发 缓 存 机 制 ， 将 这 个 RDD 以 默认 为 memory 的 缓存 级 别 缓存 起 来 。 同 时 读 取 缓 存 也 是 完全 自动 的 ， 不 需要 
用 户 干预 。 内 存 满 之 后 ， 在 尽量 保证 当前 RDD 完 整 的 情况 下 ， 采 用 FIFO 策 略 选取 部 分 block 交 换 至 disk 中 ， 以 空 出 部 分 空间 。 而 当 硬 盘 中 的 block 被 再 次 用 到 并 且 缓 存 级 别 是 内 存 时 ， 自 动 重 新 读 入 内 存 中 。 


4.6 ”本 童 /小 结 


本 章 首先 对 Spark1.5.0 的 代码 布局 做 了 宏观 介绍 ， 进 而 对 Spark 的 执行 主线 做 了 详细 剖析 ， 从 代码 层面 详细 介绍 了 RDD 是 如 何 落地 到 Worker 上 执行 的 。 接 着 ， 又 从 另 一 个 角度 分 析 了 (Client、Master 与 
Worker 之 间 的 交互 过 程 。 最 后 深入 介绍 Spark 的 两 个 重要 功能 点 及 Spark shuffle 与 Spark 人 存储 机 制 。 学 习 完 本 章 后 ， 和 希望 读者 能 自行 深入 研究 Spark 代 码 ， 加 深 对 Spark 内 部 实现 原理 的 理解 。 


第 5 章 Spark on YARN 


spark 的 部 署 模式 灵活 多 变 ， 主 要 包括 Local、standalone、Mesos 和 YARN。 如 果 在 单机 上 部 署 运 行 ， 则 可 以 使 用 Local 或 者 伪 分 布 式 模式 运行 。 如 果 在 真正 的 集群 上 部 署 运行 ， 那 么 也 有 
standalone、Mesos 和 YARN 三 种 运行 模式 可 供 选 择 。 针 对 集群 中 资源 管理 的 具体 情况 ，Spark 既 可 以 使 用 内 建 的 standalone 模 式 ， 也 可 以 依赖 于 外 部 的 资源 调度 框架 ， 如 Mesos、YARN 等 。 而 在 实际 生 
产 中 ， 选 择 YARN 的 理由 除了 方便 管理 集群 和 共享 内 存 之 外 ， 很 大 程度 上 是 为 了 便于 与 已 有 的 Hadoop 系 统 整合 。 目 前 ， 基 于 Driver 运 行 位 置 的 不 同 ，Spark 应 用 在 YARN 上 的 运行 方式 可 以 分 为 两 种 : Yarn- 
cluster 与 Yarn-Client 模 式 ， 本 章 后 半 部 分 会 一 一 介绍 这 两 种 模式 。 


5.1 YARN 概述 


另 一 种 资源 协调 者 (Yet Another Resource Negotiator，YARN) 是 一 种 新 的 Hadoop 资 源 管理 器 ， 它 是 一 个 通用 资源 管理 系统 ， 能 够 为 上 层 应 用 提供 统一 的 资源 管理 和 资源 调度 。YARN 的 引入 为 集 
群 在 利用 率 、 资 源 统一 管理 和 数据 共享 等 方面 带 来 了 巨大 好 处 。 


YARN 的 出 现 最 初 是 为 了 修复 MapReduce 的 不 足 ， 并 对 可 伸缩 性 、 可 靠 性 和 集群 利用 率 进 行 了 提升 。YARN 将 资源 管理 和 作业 调度 及 监控 分 成 了 两 个 独立 的 服务 程序 一 一 全 局 的 资源 管理 (Resource 
Manager，RM) 和 针对 每 个 应 用 的 应 用 Master (Application-Master，AM) 。 这 里 的 应 用 指 的 是 传统 意义 上 的 MapReduce 任 务 或 者 是 任务 的 有 向 无 环 图 (DAG) 。 


在 YARN 的 架构 实现 中 ，ResourceManager、NodeManager 和 Container 都 不 关心 应 用 程序 或 任务 的 类 型 。 一 般 特定 于 某 种 分 布 式 框架 的 应 用 理论 上 都 能 迁移 到 YARN 上 ， 只 要 为 其 实现 了 相应 的 
ApplicationMaster。 因 此 ，Hadoop YARN 集 群 可 运行 各 类 应 用 ， 如 批 处 理 MapReduce、Giraph、 实 时 型 服务 Storm、Spark、Tez/Impala、MPI 等 。 这 些 应 用 可 以 同时 利用 Hadoop 集 群 的 计算 能 力 和 
丰富 的 数据 存储 模型 ， 共 享 同 一 个 Hadoop 集 群 和 驻 留 在 集群 上 的 数据 。 此 外 ， 这 些 新 的 框架 还 可 以 利用 YARN 的 资源 管理 器 ， 提 供 新 的 应 用 管理 器 实现 。 从 某 种 程度 上 说 ，YARN 对 运行 在 其 上 的 框架 提供 
了 操作 系统 级 别 的 调度 。 


Hadoop YARN 的 架构 如 图 5-1 所 示 。 


MapReduce vtatus 一 一 一 一 一 他 
Job Submission ------ 


Node status ”一 :一 :一 . 到 
Resource Request 





图 5-1 YARN 的 架构 
下 面 一 一 介绍 YARN 架 构 的 重要 组 成 部 分 。 
1) ResourceManager (RM) : 负责 全 局 资源 管理 。 接 收 Client 端 任务 请 求 ， 接 收 和 监控 NodeManager 的 资源 情况 汇报 ， 负 责 资源 的 分 配 与 调度 ， 启 动 和 监控 Application-Master。 
2) NodeManager (NM) : 可 以 看 作 节 点 上 的 资源 和 任务 的 管理 器 ， 启 动 Container 运 行 Task 计 算 ， 汇 报 资 源 、Container 情 况 给 RM， 汇 报 任务 处 理 情况 给 AM。 
3) ApplicationMaster (AM) : 主要 是 单个 Application (Job) 的 Task 管 理 和 调度 ， 向 RM 申请 资源 ， 向 NM 发 出 launch Container 指 令 ， 接 收 NM 的 Task 处 理 状态 信息 。 
4) Container: YARN 中 的 资源 分 配 的 单位 。 资 源 使 用 Container 表 示 ， 每 个 任务 占用 一 个 Container， 在 Container 中 运行 。 


Job 提 交 之 后 的 处 理 过 程 简单 如 图 5-2 所 示 。 
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图 5-2 YARN 的 Job 提 交 


1) Client 提 交 一 个 Job 到 ResourceManager， 进 入 ResourceManager 中 的 Scheduler 队 列 等 待 调度 。 


2) ResourceManager 根 据 NodeManager[ 报 的 资源 情况 (NodeManager 会 定时 汇报 资源 和 Container 使 用 情况 ) ， 请 求 一 个 合适 的 NodeManager 启 动 Container， 并 在 该 Container 中 启动 运行 


ApplicationMaster。 


3) ApplicationMaster 启 动 后 ， 注 册 到 ResourceManager 上 ， 以 使 Client 可 以 查 到 ApplicationMaster 的 信息 ， 便 于 Client 直 接 和 ApplicationMaster 通 信 。 

4) ApplicationMaster 根 据 Job 划 分 的 Task 情 况 ， 向 ResourceManager 协 商 申 请 Container 资 源 。 

5) ResourceManager 分 配给 ApplicationMaster Container 资 源 后 ，ApplicationMaster 根 据 Container 内 描述 的 资源 信息 ， 向 对 应 的 NodeManager 请 求 启动 Container。 

6) NodeManager 启 动 Container 并 运行 Task， 各 个 Task 在 运行 过 程 中 向 Applic-ation-Master 汇 报 进 度 状 态 信息 ， 同 时 NodeManager 也 会 定时 向 ResourceManagerL 报 Container 的 使 用 情况 。 
7) 在 Job 执 行 过 程 中 ，Client 可 以 和 ApplicationMaster 通 信 ， 获 取 Application 相 关 的 进度 和 状态 信息 。 


8) 在 Job 完 成 后 ，ApplicationMaster 通 知 ResourceManager 清 除 自己 的 相关 信息 ， 并 释放 Container 资 源 。 


5.2 Spark on YARN 的 部 署 模式 


如 果 将 Spark 部 署 在 YARN 上 ， 必 须 确保 HADOOP_ CONF_DIR 或 YARN_CONF_DIR (在 spark-env.sh 中 可 以 配置 ) 指向 Client 端 包含 Hadoop 集 群 配置 的 目录 。Spark 通 过 这 些 配置 可 以 连接 YARN 


ResourceManager， 并 且 能 够 向 HDFS 写 入 数据 。 该 目录 中 的 配置 文件 会 被 分 发 到 YARN 集 群 ， 以 便于 应 用 使 用 的 Container 能 够 使 用 同样 的 配置 。 如 果 配 置 文件 中 引用 了 Java 系 统 属性 或 引用 了 不 被 YARN 
管理 的 环境 变量 ， 那 么 这 些 属 性 和 环境 变量 应 该 设置 在 Spark 应 用 的 配置 中 (Driver、Executors 和 运行 在 Client mode 下 的 ApplicationMaster 中 ) 。 


此 ， 


在 YARN 上 启动 Spark 应 用 依据 Spark Driver 运 行 位 置 的 不 同 ， 可 以 分 为 两 种 部 署 模式 : yarn-cluster 和 yarn-client。 


在 yarn-cluster 模 式 下 ，Spark Driver 运 行 在 被 YARN 管 理 的 ApplicationMaster 进 程 中 ， 在 应 用 启动 之 后 ，Client 端 可 以 退出 。 如 果 在 yarn-client 模 式 下 ，Driver 运 行 在 Client 进 程 中 ， 并 且 在 该 模式 


，ApplicationMaster 只 会 用 于 向 YARN 请 求 资 源 。 


与 Spark standalone 模 式 及 Mesos 模 式 不 同 ， 在 这 两 种 模式 下 ， 命 令 行 参数 --master 指 定 了 Master 的 地 址 。 而 在 YARN 模 式 下 ，ResourceManager 的 地 址 是 从 Hadoop 的 配置 中 读 出 来 的 。 
YARN 模 式 下 的 --master 命 令 行 参数 可 以 设置 为 yarn-client 或 yarn-cluster ( 均 为 小 写 ) 。 


其 中 yarn-cluster 模 式 是 实际 生产 常见 的 模式 ， 而 yarn-client 更 适用 于 用 户 交 互 的 场景 。 在 yarn-cluster 模 式 下 ，Client 可 以 在 提交 应 用 后 选择 退出 。 在 yarn-client 模 式 下 ，Driver 运 行 在 Client 上 ， 而 


Driver 包 含 了 DAGScheduler 及 TaskScheduler， 因 此 在 整个 应 用 未 执行 完成 期 间 ，Client 不 能 退出 。 


1.yarn-cluster 模 式 


yarn-cluster 模 式 架构 如 图 5-3 所 示 。 
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图 5-3 ”yarn-clustet 模 式 架构 


在 yarn-cluster 模 式 下 启动 Spark 应 用 可 以 执行 如 下 命令 : 





$ ./bin/spark-submit --class path.to.your.Class \ 
--master yarn-cluster \ 
[options] \ 
app jar \ 
[app options] \ 





例如 : 


$ ./bin/spark-submit --class org.apache.spark.examples.SparkPpi \ 
--master yarn-cluster \ 
--num-executors 3 \ 
--Qriver-memory 4g \ 
—-executor-memory 29 \ 
-executor-cores 1 \ 
--queue thequeue \ 
lib/spark-examples*.jar \ 
10 

















该 命令 启动 了 YARN Client 程 序 ， 并 且 通 过 该 Client 程 序 启动 默认 的 ApplicationMaster， 然 后 SparkPi 将 作为 Application 的 一 个 子 线程 运行 。Client 将 定期 向 ApplicationMaster 更 新 状态 并 将 其 显示 在 


终端 。 在 应 用 运行 完成 后 ，Client 会 退出 。 
2.yarn-client 模 式 


当 Driver 进 程 运 行 在 任务 提交 机 上 (Client 端 ) 时 ,该 模式 被 称 为 yarn-client 模 式 。 这 种 模式 多 用 于 用 户 交 互 的 场景 。 由 于 Driver 包 含 了 Spark 的 任务 调度 系统 ， 包 括 DAGScheuler、TaskScheduler 
等 ， 因 此 Client 端 在 提交 应 用 后 不 能 退出 ， 需 要 一 直 等 到 应 用 结束 才 可 以 选择 退出 。 


在 yarn-client 模 式 下 ，AppcationMaster 只 负责 向 RM 申请 Executor 需 要 的 资源 。 注 意 ， 当 Spark 运 行 在 YARN 上 时 ，spark-shell 和 pyspark 必 须 使 用 yarn-client 模 式 。 该 模式 架构 如 图 5-4 所 示 。 
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图 5-4 ”yarn-client 模 式 


如 果 要 在 yarn-client 模 式 下 启动 Spark 应 用 ， 类 似 地 只 需 在 命令 行 参 数 --master 后 传 入 yarn-client 参 数 即 可 。 例 如 ， 要 在 yarn-client 模 式 下 启动 spark-shell， 可 以 输入 如 下 命令 : 





$ ./bin/spark-shell --master yarn-client 





也 可 以 在 命令 行 做 更 详细 的 设置 ， 指 定 分 配给 Driver 及 每 个 Executor 的 内 存 大 小 ， 例 如 : 








$ ./bin/spark-shell --master yarn-client 
—--executor-memory 200m 

--Qqriver-memory 300m 

--num-executors 4 








在 yarn-cluster 模 式 下 ，Driver 运 行 在 Client 之 外 的 机 器 上 ， 因 此 SparkContext.addjJar 无 法 触及 Client 上 的 文件 。 为 了 使 SparkContext.addJar 访 问 这 些 Client 上 的 文件 ， 可 以 在 命令 行 加 入 --jars 参 
数 : 





$ ./bin/spark-submit --class my.main.Class \ --master yarn-cluster \ -~-jars my-other-jar.jar,my-other-other-jar.jar my-main-jar.jar app argl app arg2 











表 5-1 列 出 一 些 常用 的 命令 行 参数 说 明 。 


表 5-1 YARN 模 式 下 的 Spatk 命 令 行 参数 说 明 


参数 


--master 


--Class 


--hDUum-executors 


--driver-memory 


--eXecutor-memory 


--eXecCcuUutor-cores 


--]Jars 


参数 说 明 
部 署 模 式 yarn-cluster 或 者 yam-dient 
应 用 main 方法 所 在 的 完整 类 名 
分 配给 应 用 的 YARN Container 的 总 数 
分 配给 Driver 的 最 大 的 heap size 
分 配给 每 个 executor 的 最 大 heap size 
分 配给 每 个 executor 的 最 大 处 理 带 core 数量 
传 给 driver 或 executor 的 额外 的 jar 依赖 包 


事实 上 ， 对 于 其 他 的 部 署 模式 ， 如 单机 上 的 伪 集 群 部 署 模式 或 者 标准 的 Spark Standalone 模 式 而 言 ，--master 也 可 以 有 其 他 的 参数 形式 ， 具 体 如 表 5-2 所 示 。 
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aster URL 


Local 


Local[k| 


local[*] 


spark://host:port 


Yarn-cluster 


Yarn-client 


表 5-2 Master URL 
描述 

单机 运行 Spark 启动 一 个 worker 线程 
[ 伪 集 群 ] 单机 运行 Spark 局 动 大 个 worker 线程 
[ 伪 集 群 ] 单机 运行 Spark 局 动 worker 线程 数 与 core 数 一 致 
[Standalone mode] 连接 spark master port 可 设 定 ， 默 认为 7077 
[Yarn-cluster mode] 连接 yarn-cluster 集群 位 置 通 过 HADOOP_CONF_DIR 找到 
[Yarn-client mode 连接 yarn-cluster 集群 位 置 通过 HADOOP_CONF_DIR 找到 


由 前 面 的 内 容 可 知 ，Spark standalone、yarn-client、yarn-cluster 模 式 具 有 不 同 的 特征 ， 总 结 如 表 5-3 所 示 。 


Mode 


Driver 执行 处 
资源 申请 发 起 者 
Executor 进程 启动 处 


服务 进程 


是 否 支持 Spark Shell 


对 YARN 而 言 ， 


表 5-3 ”不同 模式 的 区 别 


YARN ResourceManager YARN ResourceManager 
Spark Master 及 Workers 





and NodeManagers and NodeManagers 


executor 和 application master 运 行 在 Container 中 。 在 一 个 应 用 完成 之 后 ，YARN 有 两 种 模式 来 处 理 Container log。 如 果 log application 是 打开 的 (使 用 yarn.log-aggregation- 


enable 配 置 ) ，Container log 会 被 复制 到 HDFS 中 ， 然 后 在 本 地 删除 。 这 些 log 可 以 使 用 “yarn logs” 命令 在 集群 中 的 任何 一 台 机 器 上 查看 。 代 码 如 下 : 











yarn logs -applicationId <appID> 


该 命令 会 输出 指定 


程序 所 有 container 的 所 有 log 内 容 。 


另外 ， 也 可 以 在 HDFS 上 使 用 HDFS shell 或 API 查 看 container log 文 件 。 这 些 log 所 在 的 目录 可 以 在 Yarn 的 配置 中 指定 





yarn.nodqemanager .remote-app-1Log-dqir 


yarn.nodemanager .remote-app-log-dir-suffi 




















除 此 之 外 ， 如 果 想 在 Spark webUI 中 的 executor 选 项 卡 下 面 查看 Container log， 则 可 以 做 如 下 配置 : 


1) 运行 spark history server 或 者 MapReduce history server。 


2) 在 yarn-site.xml 中 配置 yarn.log.server 指 向 该 server。 


完成 配置 后 ， 单 击 Spark history serverUl 上 的 log 链 接 后 ， 将 重 定向 至 配置 的 history server 页 面 ， 列 出 已 聚集 的 log。 


当 log aggregation 没 有 打开 时 ，logs 将 会 被 保存 在 YARN_APP_LOGS_DIR 指 定 的 每 台 机 器 本 地 。 保 存 路 径 默认 是 /tmpy/logs 或 $SHADOOP_ HOME/logsuserlogs， 有 具体 取决 于 Hadoop 的 版 本 及 安装 


位 置 。 在 这 种 情况 下 ， 可 以 登 


log， 此 时 不 需要 运 


一 /一 


运 位 


录 到 包含 log 的 主机 相关 目录 下 查看 Container log。 子 目录 将 log 文 件 通过 application 1D 和 container 1D 进 行 组 织 。 在 Spark Web UI 中 的 executors 选 项 卡 下 也 可 以 查看 这 些 


MapReduce history server。 


5.3 Spark on YARN 的 配置 重点 


前 面 介 绍 了 Spark 基 于 YARN 的 部 署 模式 及 Job 提 交 方 式 。 下 面 将 带领 读者 继续 深入 YARN 的 内 存 及 其 他 几 个 重要 方面 的 配置 ， 相 信和 学 习 完 这 一 节 之 后 ， 读 者 会 更 深入 地 理解 YARN 及 基于 YARN 部 署 的 
spark。 


5.3.1 YARN 的 自身 内 存 配 置 


在 前 面 提 到 过 ， 当 Client 向 RM 提交 作业 时 ，AM 会 向 RM 提出 资源 申请 ， 并 向 NodeManager (NM) 通知 task 执 行 。 在 这 个 过 程 中 ，RM 负 责 资源 调度 ，AM 负 责任 务 调度 ， 具 体 总 结 如 下 : 
* RM 负责 整个 集群 的 资源 管理 与 调度 。 
- NM 负责 单个 节点 的 资源 管理 与 调度 ， 通 过 心跳 的 形式 与 RM 通信 ， 报 告 节 点 的 健康 状态 与 内 存 使 用 情况 。 
AM 通过 与 RM 交互 获取 资源 ， 然 后 通过 与 NM 交互 ， 局 动 计 算 任务 。 
事实 上 YARN 是 通过 参数 配置 来 达到 内 存 资源 管理 的 目的 的 。 下 面 简要 介绍 YARN 资 源 配 置 的 方式 ， 以 此 进一步 说 明 上 面 的 总 结 。 
RM 的 内 存 资 源 配置 主要 通过 yarn-site.xml 中 的 两 个 参数 来 设 定 。 
ee 


* yatn.schedulet.minimum-allocation-mb 


说 明 : 这 两 个 参数 配置 的 是 单个 container 可 申请 的 最 大 与 最 小 内 人 存 。 运 行 Application 时 申请 内 存 的 大 小 应 位 于 这 两 个 参数 指定 的 值 之 间 。 另 外 最 小 值 还 可 用 于 计算 一 个 节点 的 最 大 container 数 目 。 在 
应 用 执行 时 ， 无 法 动态 改变 这 两 个 参数 值 。 


NM 的 内 存 资 源 配置 主要 通过 yarn-site.xml 中 以 下 参数 指定 。 

. yarn.nodemanager.resoutce.memory-mb 

说 明 : 每 个 节点 可 用 的 最 大 内 存 ，RM 中 的 两 个 值 不 应 该 超过 此 值 。 此 数值 可 用 于 计算 container 最 大 数目 ， 即 用 此 值 除 以 RM 中 的 最 小 容器 内 存 。 
AM 内 存 配 置 相关 参数 主要 在 mapred-site.xml 中 设 定 (此 处 以 MapReduce 为 例 进行 说 明 ) 。 

. mapreduce.map.memory.mb 


* maprteduce.reduce.memotry.mb 


说 明 : 这 两 个 参数 指定 用 于 MapReduce 的 两 个 Map 任 务 和 Reduce 任 务 的 内 存 大 小 。 这 两 个 值 应 介 于 RM 中 的 最 大 、 最 小 container 内 存 值 之 间 。 如 果 没有 配置 ， 则 通过 如 下 简单 公式 计算 : 
max (MIN_CONTAINER SIZE, (Total Available RAM) /containers) ) 。 一 般 的 Reduce 应 该 是 Map 的 2 倍 。 注 : 这 两 个 值 可 以 在 应 用 启动 时 通过 参数 改变 。 


其 他 内 存 和 JVM 设 置 等 相关 参数 可 通过 如 下 选项 配置 。 
* mapreduce.map.java.opts 


* mapreduce.reduce.java.opts 


说 明 : 熟悉 Java 的 读者 可 能 已 经 看 出 来 了 ， 这 两 个 参数 主要 通过 向 JVM 中 传递 参数 来 设置 java 或 scala 的 资源 使 用 。 在 向 JVM 传 入 参数 时 ， 与 内 存 有 关 的 参数 最 常见 的 是 : -Xmx (最 大 堆 大 小 ) 与 - 
Xms (初始 堆 大 小 ) 等 。 此 数值 应 该 在 AM 中 的 map.mb 和 reduce.mb 之 间 。 


5.3.2 Spark on YARN 的 重要 配置 


本 节 列 出 与 YARN 有 关 的 Spark 部 分 配置 的 属性 名 、 含 义 和 默 认 值 ( 见 表 5-4) 。 开 发 者 可 以 选择 在 代码 中 或 者 Spark-defaults.conf 文 件 中 指定 这 些 配置 项 。 如 果 想 查询 Spark1.5.0 完 整 的 配置 项 列表 ， 
请 查阅 Spark 官 网 http://spark.apache.org/docs/1.5.0/running-on-yarn.html,。 


表 5-4 Spark 中 与 YARN 有 关 的 重要 属性 


属性 名 称 上 默认 值 


spark.yarn.am.memory S12M 


spark.driver.cores 


spark.yarn.am.cores 


spark.yarn.am.waitTime 100 000 


spark.yarn.submit.file.replication 


spark.yarn.preserve.staging.files False 


spark.yarn.scheduler.heartbeat.interval-ms 3000 


2 信 于 executor 数 ， 最 


小 值 3 


spark.yarn.max.executor.failures 


属性 名 称 默认 值 


一 


spark.yarn.application Master.waitTries 


spark.yarn.historyServer.address 


spark.yarn.dist.archives 
spark.yarn.dist.files 
spark.executor.instances 


executorMemory x 0.07, 
Spark.yarn.executormemoryOverhead 


不 小 于 384 
driverMemory x 0.07, 
spark.yarn.driver.memoryOverhead 不 小 于 384 
spark.yarn.am.memoryOverhead mmo 
小 于 384 


spark.yarn.queue 默认 
Spark.yarn.]ar 
spark.yarn.access.namenodes 


Spark.yarn.appMasterEnv. 


[EnvironmentVariableName| 
spark.yarn.contaimnerLauncherMaxThreads 2 
spark.yarn.am.extraJavaOptions 


yarn.resourcemanager. 
spark.yarn.maxAppAttempts 


am.max-attempts In YARN 


含义 
在 client 模式 时 ，AM 的 内 存 大 小 ; 在 
cluster 模式 时 ， 使 用 spark.driver.memory 


< 
变量 


在 claster 模式 时 ，driver 使 用 的 CPU 
核 数 ， 这 时 driver 运行 在 AM 中 ， 其 实 也 


9 二 从 


就 是 AM 和 核 数 ; 在 client 模式 时 ， 使 用 


三 
变量 


在 client 模式 时 ，AM 的 CPU 核 数 

尼 动 时 等 待 时间 

应 用 程序 上 传 到 HDFS 的 文件 的 副本 数 

耕 为 tue， 在 Job 结束 后 ， 将 stage 相 
天 的 文件 保留 而 不 是 删除 

Spark AppMaster 发 送 心 跳 信 
YARN RM 的 时 间 间 隔 

导致 应 用 程序 宣告 失败 的 最 大 executor 
失败 次 数 


spark.yarn.am.cores 


人 
县 给 


Dy 


含义 
RM 等 待 Spark AppMaster 启动 重 试 次 
数 ， 也 就 是 SparkContext 初始 化 次 数 。 超 
过 这 个 数值， 局 动 失 败 
Spark history server 的 地 址 (不 要 加 
http://)。 这 个 地 址 会 在 Spark 应 用 程序 完 
成 后 提交 给 YARN RM， 然 后 RM 将 信息 
从 RM UI 写 到 history server UI 上 


executor 实例 个 数 


executor 的 堆 内 存 大 小 设置 


driver 的 堆 内 存 大 小 设置 


AM 的 堆 内 存 大 小 设置 ， 在 client 模式 
时 设置 
使 用 YARN 的 队列 


设置 AM 的 环境 变量 


AM 启动 executor 的 最 大 线程 数 


AM 重 试 次 数 


5.4 本章 小 结 


本 章 先 介 绍 了 YARN 的 基本 原理 及 基于 YARN 的 Spark 程 序 提交 ， 并 从 程序 从 提交 到 落地 执行 的 视角 ， 详 细 介 绍 了 各 个 阶段 的 资源 管理 和 调度 职能 。 在 本 章 的 后 半 部 分 ， 主 要 从 资源 配置 的 角度 对 YARN 
及 基于 YARN 的 Spark 做 了 较为 详细 的 介绍 。 读 者 学 习 完 本 章 后 ， 应 该 思考 Spark standalone 与 Spark on YARN 在 资源 管理 方面 的 异同 ， 以 此 来 加 深 对 Spark 资 源 配置 和 管理 方面 知识 的 掌握 。 


第 6 章 ”BDAS 生 态 主要 模块 


前 面 几 章 分 别 介绍 了 Spark 的 机 制 原 理 及 部 分 重要 细节 。 本 章 将 继续 介绍 伯克利 大 学 AMPLab 开 发 的 BDAS (Berkeley Data Analytics Stack) 数据 分 析 软 件 栈 的 构成 ， 即 Spark 生 态 系统 的 各 个 组 成 模 
块 。 在 BDAS 中 ，Spark 替 代 了 Hadoop 中 的 MapReduce。 基 于 Spark， 使 用 Spark SQL/Shark 蔡 代 了 Hive 等 数据 仓库 ; 使 用 Spark Streaming 蔡 代 Storm 作 为 流失 计算 框架 ; 使 用 GraphX 蔡 代 了 Graph 
Lab 等 图 计算 框架 ; 使 用 MLlib 蔡 代 Mahout 等 机 器 学 习 框 架 ; 为 了 改进 Hadoop 的 性 能 弱势 ，Spark 及 其 框架 提出 了 基于 内 存 计 算 的 策略 。Spark 的 口号 是 : One Stack to rule them all， 使 用 Spark 的 用 户 
可 以 一 站 式 地 构架 自己 的 数据 分 析 平 台 。 


6.1 Spark SQL 


为 了 满足 用 户 各 种 查询 需要 并 兼容 传统 数据 库 用 户 的 使 用 习惯 ，Spark 提 供 了 SQL 接口 ， 即 Shark 和 Spark SQL 这 两 个 分 布 式 大 数据 查询 引擎。 在 2014 年 7 月 1 日 的 Spark Submit 之 后 ，Databricks 公 司 
宣布 不 再 支持 Shark 的 研发 ， 开 始 转向 Shark 的 下 一 代 技 术 : Spark SQL。Spark SQL 将 涵盖 shark 的 所 有 特性 。 同 时 Hive 社 区 也 推出 Hive on Spark， 将 Spark 作 为 新 的 执行 引擎 。Hive on Spark 提 出 的 目 
的 之 一 在 于 便于 将 Hive 用 户 迁移 到 Spark。 据 伯克利 的 测试 表明 ，Shark 的 性 能 无 论 是 在 硬盘 还 是 内 存 中 ， 相 比 Hive 而 言 ， 可 以 提升 多 达 几 十 倍 ， 而 Spark SQL 的 性 能 再 度 超越 了 shark。 虽 然 Shark 的 发 展 
画 上 了 句号 ,但 也 因此 发 展 出 两 条 线 : SparkSQL 和 Hive on Spark， 如 图 6-1 所 示 。 


| Hive 将 Spark 作为 
| 新 的 执行 引擎 


Shark 被 终止 开 i XK 
| 大 


转 回 SparkSQL 


v 


昌 于 有 有 路] HI 
Spark SQL Hive on Spark 方便 下 有 ye 
用 户 迁 移 到 Spark 


图 6-1 Spark SQL 与 Hive on Spatk 


SparkSQL 将 作为 Spark 生 态 的 一 员 继 续 发 展 ， 不 再 受 限 于 Hive， 并 有 兼容 Hive。 而 Hive on Spark 是 一 个 Hive 社 区 的 发 展 计划 ， 该 计划 将 Spark 作 为 Hive 的 底层 引擎 之 一 ， 也 就 是 说 ，Hive 将 不 再 受 限 
于 一 个 引擎 ， 可 以 采用 Map-Reduce、Tez、Spark 等 引擎 。 


6.1.1 Spark SQL 概 述 


细心 的 读者 可 能 已 从 前 文中 看 出 ，Spark SQL 其 实 是 用 于 处 理 结构 化 数据 的 Spark 模 块 ， 也 可 以 作为 分 布 式 的 SQL 查询 引擎。spark SQL 提 供 了 DataFrame 作 为 编程 入 口 ， 并 且 可 以 从 Hive 中 读 取 数据 。 
Spark SQL 产 生 的 原因 主要 在 于 随 着 Spark 的 蓬勃 发 展 ，Shark 对 于 Hive 的 依赖 逐渐 增多 (如 Shark 采 用 Hive 的 语法 解析 器 、 查 询 优化 器 等 ) ， 这 些 依赖 从 某 种 程度 上 制约 了 Spark 提 出 的 One stack to rule 
them all 既 定 方针 。 另 外 从 整体 层面 来 看 ， 也 制约 了 Spark 各 个 组 件 的 融 治 性 ， 因 此 Spark SQL 项 目 应 运 而 生 。Spark SQL 握 弃 了 原 有 Shark 的 代码 ， 但 汲取 了 Shark 的 一 些 优点 ， 如 内 存 列 存储 (In- 
Memory Columnar Storage) 、Hive 兼 容 性 等 ， 重 新 开发 了 Spark SQL 人 代码 。 由 于 摆脱 了 对 Hive 的 依赖 性 ，SparkSQL 无 论 在 数据 兼容 、 性 能 优化 、 组 件 扩展 方面 都 得 到 了 极 大 的 改进 ， 详 述 如 下 : 


1) 改进 的 数据 兼容 性 : 不 但 兼容 Hive， 还 可 以 从 RDD、parquet 文 件 、JSON 文 件 中 获取 数据 ， 支 持 获 取 RDBMS 数 据 以 及 cassandra 等 NoSQL 数 据 。 
2) 性 能 的 优化 : 除了 采取 内 存 列 存储 、byte-code generation 等 优化 技术 外 ， 将 会 引进 Cost Model 对 查询 进行 动态 评估 、 获 取 最 佳 物 理 计 划 等 。 


3) 改进 的 组 件 扩展 : 无 论 是 SQL 的 语法 解析 器 、 分 析 器 ， 还 是 优化 器 ， 都 可 以 重新 定义 、 扩 展 。 


分 别 如 图 6-2 和 图 6-3 所 示 。 由 于 Shark 的 出 现 ， 使 得 SQL-on-Hadoop 的 性 能 比 Hive 有 了 10 ~ 100 倍 的 提高 。 
全 已 
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| QQ， 
在 100 个 节点 的 EC2 集群 上 对 1.7TB 的 数据 进行 计算 


Spark SQL 虽然 摆脱 了 对 Hive 的 依赖 ， 但 性 能 没有 shark 相 对 于 Hive 那 样 显著 提升 ， 不 过 也 算 优异 了 。 


TPC-DS 测试 
国 Shark-0.9.2 加 SparkSQL + codegen 
400 秒 


300 秒 
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Query 19 Query 53 Query 34 Query 59 


图 6-3 Spark SQL 性 能 图 示 


6.1.2 ”Spark SQL 的 架构 分 析 


类 似 于 关系 型 数据 库 ，Spark SQL 的 语句 也 是 由 三 部 分 组 成 ， 即 Projection (a1，a2，a3) 、Data Source (tableA) 、Filter (condition) 。 三 者 分 别 对 应 SQL 查询 过 程 中 的 Result、Data Source、 


Operation ， 也 就 是 说 SQL 语句 按 Result 一 Data Source 一 Operation 的 次 序 来 描述 ， 如 图 6-4 所 示 : 
projection Data Source Filter 


SELECT al, a2, a3 FROM tableA Where condition 


EY Cr 



















图 6-4 Spatk SQL 解析 顺序 


执行 SparkSQL 语 句 的 流程 如 下 : 

1) 解析 (Parse) : 对 读 入 的 SQL 语句 进行 解析 ， 分 辨 出 SQL 语句 中 哪些 词 是 关键 词 (如 SELECT、FROM、WHERE) ， 哪 些 是 表达 式 ， 哪 些 是 Projection， 哪 些 是 Data Source 等 ， 从 而 判断 SQL 语句 
是 否 规范 。 

2) 绑 定 (Bind) : 将 SQL 语句 和 数据 库 的 数据 字典 ( 列 、 表 、 视 图 等 ) 进行 绑 定 ， 如 果 相 关 的 Projection、Data Source 等 都 是 存在 的 话 ， 就 表示 这 个 SQL 语句 是 可 以 执行 的 。 

3) 优化 (Optimize) 。: 一 般 的 数据 库 会 提供 几 个 执行 计划 ， 这 些 计 划一 般 都 有 运行 统计 数据 ， 数 据 库 会 在 这 些 计 划 中 选择 一 个 最 优 计 划 


4) 执行 计划 (Execute) : 按 Operation 一 Data Source 一 Result 的 次 序 来 进行 ， 在 执行 过 程 中 ， 有 时 甚至 不 需要 读 取 物 理 表 就 可 以 返回 结果 ， 比 如 重新 运行 刚 运行 过 的 SQL 语句 ， 可 能 直接 从 数据 库 的 
缓冲 池 中 获取 返回 结果 。 


sparkSQL 对 SQL 语句 的 处 理 和 关系 型 数据 库 对 SQL 语句 的 处 理 采 用 了 类 似 的 方法 ， 首 先 解析 SQL 语句 (Parse) ， 形 成 一 个 语法 树 (Tree) 。 然 后 后 续 的 绑 定 、 优 化 等 处 理 过 程 都 是 对 Tree 的 操作 ， 而 
操作 的 方法 是 采用 Rule， 通 过 模式 匹配 ， 对 不 同类 型 的 节点 采用 不 同 的 操作 。 在 整个 SQL 语句 的 处 理 过 程 中 ，Tree 和 Rule 相 互 配合 ， 完 成 了 解析 、 绑 定 (在 SparkSQL 中 称 为 Analysis) 、 优 化 、 物 理 计划 等 
过 程 ， 最 终生 成 可 以 执行 的 物理 计划 。 


Tree 的 具体 操作 是 通过 TreeNode 实 现 的 。TreeNode 可 以 使 用 scala 的 集合 操作 方法 (如 foreach、map、flatMap、collect 等 ) 进行 操作 。 有 了 TreeNode， 通 过 Tree 中 各 个 TreeNode 之 间 的 关系 ， 
可 以 对 Tree 进行 遍历 操作 ， 如 使 用 transformDown、transformUp 将 Rule 应 用 到 给 定 的 树 段 ， 然 后 用 结果 蔡 代 旧 的 树 段 。 也 可 以 使 用 transformChildrenDown、transformChildrenUp 对 一 个 给 定 的 节点 


TreeNode 可 以 细 分 成 三 种 类 型 的 Node。 

1) UnaryNode 一 元 节点 ， 即 只 有 一 个 子 节点 ， 如 Limit、Filter 操 作 。 

2) BinaryNode 二 元 节点 ， 即 有 左右 子 节点 的 二 叉 节 点 ， 如 jion、Union 操 作 。 
3) LeafNode 叶 子 节点 ， 无 子 节点 的 节点 ， 如 用 户 命 令 类 SetCommand 操 作 。 


Rule 是 一 个 抽象 类 ， 具 体 的 Rule 实 现 是 通过 RuleExecutor 完 成 的 。Rule 在 SparkSQL 的 Analyzer、Optimizer、SparkPlan 等 各 个 组 件 中 都 被 应 用 了 。Rule 通 过 定义 batch 和 batchs， 可 以 简便 、 模 块 化 
地 对 Tree 进行 transform 操 作 。Rule 通 过 定义 Once 和 FixedPoint， 可 以 对 Tree 进行 一 次 操作 或 多 次 操作 (如 对 某 些 Tree 进行 多 次 迭代 操作 时 ， 达 到 FixedPoint 次 数 迭 代 或 前 后 两 次 的 树 结构 无 变化 才 停止 操 
作 ， 有 具体 参见 RuleExecutorapply) 。 


SparkSQL 包 含 两 个 分 支 ， 即 SqlContext 和 HiveContext，SqlContext 现 在 只 支持 SQL 语 法 解析 器 。HiveContext 支 持 SQL 语 法 解析 器 和 hiveSQL 语 法 解析 器 ， 默 认为 HiveSQL 语 法 解析 器 ， 可 以 通过 配 
置 切换 成 SQL 语法 解析 器 ， 来 运行 HiveSQL 不 支持 的 语法 。 


SparkSQL 从 1.1 版 开始 ， 总 体 上 由 下 面 4 个 模块 组 成 : 

1) Core 模 块 : 处 理 数据 的 输入 输出 ， 从 不 同 的 数据 源 获取 数据 (RDD、Parquet、json 等 ) ， 将 查询 结果 输出 成 schemaRDD。 

2) Catalyst 模 块 : 处 理 查询 语句 的 整个 处 理 过程 ， 包 括 解析 、 绑 定 、 优 化 、 物 理 计 划 等 ， 与 其 说 其 是 优化 器 ， 还 不 如 说 是 查询 引擎 。 
3) Hive 模 块 : 对 Hive 数 据 的 处 理 。 


4) Hive-ThriftServer 模 块 : 提供 CLI (Command-Line Interface， 命 令 行 界面 ) 和 JDBC/ODBC 接 口 。 


在 这 4 个 模块 中 ，Catalyst 处 于 最 核心 的 部 分 ， 其 性 能 优 务 将 影响 整体 的 性 能 。 由 于 发 展 时 间 尚 短 ， 还 有 很 多 不 足 的 地 方 ， 但 其 插件 式 的 设计 ， 为 未 来 的 发 展 留 下 了 很 大 的 空间 。 


通过 SQLContext 上 下 文 类 ， 可 以 把 RDD 注 册 为 table (后 面 会 讲 到 ) 。 该 RDD 是 SchemaRDD， 拥 有 一 个 case class， 相 当 于 是 SQL 表 的 schema 信 息 。schema 的 column 信 息 会 从 case class 中 反射 出 
来 。 将 RDD 注 册 成 table 之 后 ， 它 的 信息 会 持 有 在 Catalog 里 ， 且 生命 周期 存在 于 所 定义 的 SQLContext 实 例 中 。 在 写 SQL 语 名 时， 会 用 这 个 SchemaRDD， 在 执行 之 前 会 经 历 几 个 步骤 ， 分 别 是 通过 简单 的 
SQL parser 把 SQL 解析 成 逮 辑 执行 计划 ， 从 逻辑 执行 计划 到 物理 执行 计划 之 间 ， 有 分 析 器 、 优 化 器 和 Planner 做 进一步 的 处 理 ， 这 些 处 理 本 质 上 都 是 Catalyst RuleExecutor 的 实现 ， 每 一 个 步骤 都 定制 和 注 
册 了 自己 的 规则 序列 ， 递 归 作 用 于 逻辑 执行 计划 之 内 。 前 面 这 些 处 理 基 本 都 是 延迟 执行 (lazy) 的 ， 只 有 触发 tcRdd 时 ， 才 真正 执行 。 当 返回 RDD 后 ， 此 RDD 是 Spark 上 通用 的 RDD 形 态 ， 可 以 被 继续 处 
理 ， 从 而 打通 了 从 RDD 到 table， 经 过 SQL 处 理 后 再 回 到 RDD 的 过 程 。 整 个 过 程 的 执行 和 优化 完全 依靠 Catalyst 这 个 新 的 查询 优化 框架 。Catalyst 的 框架 如 图 6-5 所 示 。 
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图 6-5 ”Catalyst 的 架构 
在 图 6-5 中 ， 实 线 部 分 是 已 经 实现 的 功能 ， 虚 线 部 分 是 后 续 版 本 将 要 实现 的 功能 。 从 图 6-5 中 可 以 看 出 ，catalyst 主 要 的 实现 组 件 如 下 : 
1) SQLParse (Scala 实 现 ) : 完成 SQL 语句 的 语法 解析 功能 ， 目 前 只 提供 了 一 个 简单 的 SQL 解析 器 。 将 输入 的 SQL， 解 析 成 Unresolved logical plan (未 被 解析 的 逻辑 计划 ) 。 
2) Analyzer: 主要 完成 绑 定 工作 ， 将 不 同 来 源 的 Unresolved LogicalPlan 和 数据 元 数据 (如 Hive metastore、Schema Catalog) 进行 绑 定 ， 生 成 Resolved LogicalPlan。 
3) Optimizer: 对 Resolved LogicalPlan 进 行 优 化 ， 生 成 Optimized LogicalPlan。 
4) Planner: 将 Optimized LogicalPlan 转 换 成 PhysicalPlan。 
5) CostModel: 主要 根据 过 去 的 性 能 统计 数据 ， 选 择 最 佳 的 物理 执行 计划 。 
这 些 组 件 的 基本 实现 方法 如 下 : 
1) SQLParse 先 将 SQL 语句 通过 解析 生成 Tree， 然 后 在 不 同 阶段 使 用 不 同 的 Rule 应 用 到 Tree 上 ， 通 过 转换 完成 各 个 组 件 的 功能 。 
2) Analyzer 使 用 Analysis Rules， 配 合 数据 元 数据 (如 Hive Metastore、Schema Catalog) ， 完 善 Unresolved LogicalPlan 的 属性 而 转换 成 Resolved LogicalPlan。 
3) Optimizer 使 用 Optimization Rules， 对 Resolved LogicalPlan 进 行 合并 、 列 裁剪 、 过 滤器 下 推 等 优化 作业 而 转换 成 Optimized LogicalPlan。 
4) Planner 使 用 Planning Strategies， 将 Optimized LogicalPlan 转 换 为 PhysicalPlan。 


Spark 提 供 了 Spark SQL CLI 和 ThriftServer， 用 户 可 以 使 用 Spark SQL CH 在 命令 界面 直接 输入 SQL 命令 ， 然 后 发 送 到 Spark 集 群 进行 执行 ， 在 界面 中 显示 运行 过 程 和 最 终 的 结果 。 这 使 得 Hive 用 户 和 传 
统 RDBMS 管 理 员 容易 上 手 ，Spark 在 真正 意义 上 走 进 了 SQL。 


6.1.3 Spark SQL 如 何 使 用 


谈 到 Spark SQL 的 使 用 就 不 得 不 提 DataFrame。DataFrame 是 一 个 由 以 命名 列 组 成 的 分 布 式 数据 集 ， 本 身 是 一 个 带 schema 的 RDD。 它 在 概念 上 等 价 于 关系 数据 库 中 的 表 或 者 RMPython 中 的 data 
frame。 从 另 一 角度 看 ，DataFrame 是 一 个 新 的 RDD， 它 可 以 通过 许多 方式 创建 ， 如 结构 化 的 数据 文件 、Hive 中 的 表 、 外 部 数据 库 或 者 已 有 的 RDD。 另 外 ，DataFrame 也 提供 了 Scala、Java、Python 及 R 
语言 的 API 接 口 。 


Spark SQL 的 SQLContext 类 及 其 子 类 提供 了 使 用 Spark SQL 功能 的 入 口 。 要 创建 SQLContext， 只 需 SparkContext 即 可 。 代 码 清单 6-1 展 示 了 如 何 创 建 SQLContext。 


代码 清单 6-1 创建 SQLContext 


// 已 有 的 SparkContext. 

val sc: SparkContext 

val sqlContext = new org.apache.spark.sqgl.SQLContext (sc) 

// this is used to implicitly convert an RDD to a DataFrame. 
import sqlContext.implicits. 




















除了 基本 的 SQLContext 之 外 ， 还 可 以 创建 HiveContext， 它 提供 了 比 SQLContext 更 丰富 的 功能 ,包括 使 用 更 完整 的 HiveQL Parser 写 查询 访问 Hive UDF， 或 从 Hive 的 表 中 读 取 数 据 。 若 要 使 用 
HiveContext， 除 了 需要 安装 Hive 外 ， 还 要 确保 所 有 SQLContext 的 数据 源 依然 有 效 。 


通过 SQLContext， 应 用 程序 可 以 从 不 同 的 数据 源 ， 如 Hive 中 的 表 ， 或 者 其 他 数据 源 使 用 RDD 创 建 DataFrame。 代 码 清单 6-2 展 示 了 如 何 基 于 JSON 文 件 内 容 来 创建 DataFrame。 


代码 清单 6-2 ”基于 JSON 文 件 创建 DataFrame 


// 已 有 的 SparkContext. 
val sc: SparkContext 
val sqlContext = new org.apache.spark.sqgl.SQLContext (sc) 


// 通 过 json 创 建 DataFrame。 注 意 ， 读 取 json 的 方法 在 Spark 的 不 同 版 本 中 有 可 能 不 同 
val df = sgqlContext.read.json ("examples/src/main/resources/people.json") 












































// 输 出 DataFrame 的 内 容 





~ 


df .show () 





DataFrame 不 仪 提 供 了 Scala、Java、Python 接 口 ， 还 提供 了 操作 结构 化 数据 的 领域 语言 ， 代 码 清单 6-3 简 要 展示 了 如 何 用 DataFrame 处 理 结构 化 数据 。 


代码 清单 6-3 ”使 用 DataFrame 处 理 结构 化 数据 








// 已 有 的 sc 
val sc: SparkContext 
val sqlContext = new org.apache.spark.sql.SQLContext (sc) 














// 从 JSON 创 建 DataFrame 
val df = sqlContext.read.json ("examples/src/main/resources/people.json") 




















// 展 示 DataFrame 内 容 

df .show () 

// age name 

// null Michael 

// 30 Andy 

// 19 Justin 

// 以 tree 的 格式 输出 schema 
df.printSschema () 

// root 

// |-- age: long (nullable = true) 
// |-- name: string (nullable = true) 


// 选 取 "name" 列 

df.select ("name") .Show () 
// name 

// Michael 

// Andy 

// Justin 


// 对 所 有 人 年 龄 加 1 
df.select (df ("name"), df("age") + 1).show() 
// name (age + 1) 

// Michael null 

// Andy 31 

// Justin 20 


// 选 取 年 龄 大 于 21 岁 的 
df.filter (df ("age") > 21) .Show () 
// age name 

// 30 Andy 


// 统 计 年 龄 

df.groupBy ("age") .count () .show () 
// age count 

// null 1 
// 19 
太志 由 “i 
除 此 之 外 ，DataFrame 也 提供 了 更 加 丰富 的 函数 库 ， 包 







































































除 此 之 外 ，DataFrame 也 提供 了 更 加 丰富 的 函数 库 ， 包 括 字符 操作 、 日 期 、 常 见 的 数学 操作 等 。 
Spark SQL 提供 了 两 种 方式 来 将 RDD 转 换 为 DataFrame。 下 面 给 出 例子 ， 详 述 这 两 种 方式 。 
1) 使 用 反射 来 推断 包含 具体 对 象 类 型 的 RDD 的 schema。 基 于 反射 的 方式 要 求 代 码 写 得 更 加 精确 。 当 开发 者 开发 Spark 应 用 时 ， 已 经 知道 shema， 因 此 这 种 方式 很 有 效 。 


Spark SQL 的 scala 接 口 能 够 自动 将 包含 case class 的 RDD 转 换 为 DataFrame。case class 定 义 了 表 的 schema。case class 的 参数 名 可 以 使 用 反射 读 取出 来 ， 成 为 列 名 。 另 外 Case class 也 能 够 包含 复杂 类 
如 Sequences 或 Arrays。 在 代码 清单 6-4 中 可 以 看 到 ，RDD 被 隐 式 地 转换 为 DataFrame， 然 后 注册 为 一 张 表 ， 在 后 续 的 SQL 语句 中 可 以 使 用 这 张 表 。 


代码 清单 6-4 ”基于 反射 方式 将 RDD 注 册 成 表 的 过 程 


/* sc 是 已 有 的 SparkContext. */ 
val sqlContext = new org.apache.spark.sqgql.SQLContext (sc) 


// 用 于 隐 式 地 将 RDD 转 换 为 DataFrame. 


import sqlContext.implicits. 
































// 定 义 case class 
case class Person (name: String, age: Int) 


//people 是 含有 case 类 型 的 RDD。 会 被 隐 式 地 转换 为 SchemaRDD 
val people = sc.textFile ("examples/src/main/resources/people.txt") .map( .split(",")) .map(P => Person(p(0), p(1) .trim.toInt)) .toDF () 


// 向 内 存 的 元 数据 中 注册 表 信 息 ， 完 成 Spark SQL 表 的 创建 
people.registerTempTable ("people") 


// 该 SQL 语 句 会 触发 上 节 所 讲 的 解析 ， 分 析 ， 优 化 等 环节 ， 返 回 DataFrame (新 型 的 RDD! ) 
val teenagers = sgqlContext.sql ("SELECT name, age FROM People WHERE age >= 13 AND age <= 19") 
























































































































































// 查 询 的 结果 返回 DataFrame, DataFrame 支 持 所 有 的 RDD 操 作 .并 且 结 果 行 中 列 的 访问 可 以 通过 序号 
teenagers.map(t => "Name: " + t(0)).collect().foreach (printlin) 

// 或 者 通过 列 名 访问 

teenagers.map(t => "Name: " + 七 .getAs [Strind] ("name") ) .colLllect () .foreach (Println) 

















2) 通过 编程 接口 创建 。 该 编程 接口 允许 用 户 构建 shema 并 应 用 到 RDD 上 。 它 允许 用 户 在 不 知道 列 及 其 类 型 时 ， 创 建 DataFrame， 在 程序 运行 时 会 获得 这 些 信息 。 
当 case class 不 能 在 实现 中 定义 时 ， 在 编程 中 可 以 分 三 步 创建 DataFrame: 

1) 从 原来 的 RDD 创 建 一 个 由 行 组 成 的 新 RDD。 

2) 创建 以 StructType 表 示 的 schema，StructType 与 1) 中 得 到 的 新 RDD 结 构 一 致 。 

3) 使 用 SQLContext 的 函数 createDataFrame 将 schema 应 用 至 RDD 上 。 

代码 示例 如 代码 清单 6-5 所 示 。 


代码 清单 6-5 ”通过 编程 接口 将 RDD 注 册 成 表 的 过 程 


// sc is an existing SparkContext. 




















val sqlContext = new org.apache.spark.sqgql.SQLContext (sc) 

/ /创建 RDD 

val people = sc.textFile ("examples/src/main/resources/people.txt") 
//schema 字 符 串 

val SchemaString = "name age" 





// Import Row. 
import org.apache.spark.sgqgl .Row; 











// Import Spark SQL data types 
import org.apache.spark.sqgl.types.{StructType,StructrField,StringType}; 




















// 通 过 schema 字 符 串 生成 schema 
val Schema = 




















StructType( 
schemaString.split(" ") .map (fieldName => StructrField (fieldName, StringType, true))) 
// 将 RDD 中 的 记录 转化 为 row 
val rowRDD = people.map( .split(",")) .map(p => Row(p(0), p(1) .trim) ) 





// 对 rowRDD 使 用 schema 
val peopleDataFrame = sqlContext.createDataFrame (rowRDD, schema) 














// 将 peopleDataFrame 注 册 为 表 
peopleDataFrame.registerTempTable ("people") 








// SQL statements can be run by using the sql methods provided by sqlContext. 
val results = sqlContext.sql ("SELECT name FROM people") 
































//SQL 查 询 的 结果 返回 DataFrame， 支 持 RDD 操 作 
// The columns of a row in the result can be accessed by field index or by field name. 
results.map(t => "Name: " + t(0)).collect().foreach (Println) 

















Spark SQL 通 过 DataFrame 接 口 来 支持 操作 不 同 种 类 的 数据 源 ， 如 Hbase、HDFS、MongoDB、 文 件 、JSON 等 。 默 认 的 数据 源 为 parquet， 若 要 改变 默认 的 数据 源 ， 需 要 使 用 
spark.sql.sources.default 指 定 。 示 例 代 码 如 代码 清单 6-6 所 示 。 


代码 清单 6-6 Spark SQL 读 取 数据 源 示例 (一 ) 





val df = sgqlContext.read.1load ("examples/src/main/resources/users.parquet") 
df.select ("name", "favorite color") .write.save ("namesAndFavColors.parquet") 























另外 ， 也 可 以 使 用 数据 源 的 完整 类 名 (如 org.apache.spark.sql.parquet) 来 指定 数据 源 。 对 于 内 置 的 数据 源 也 可 以 使 用 缩写 名 ， 如 json，parquet，jdbc。 使 用 这 种 方式 ， 任 何 类 型 的 DataFrame 都 可 
以 被 转化 成 其 他 类 型 ， 如 示例 代码 清单 6-7 所 示 。 


代码 清单 6-7 Spark SQL 读 取 数 据 源 示例 (二 ) 








val df = sqlContext.readq.format ("json") .load ("examples/src/main/resources/people.json") 
df.select ("name", "age") .write.format ("parquet") .save ("namesAngdAges .parquet") 




















6.2 Spark Streaming 


本 节 主 要 讲述 BDAS 中 的 一 个 重要 模块 ， 实 时 流 计算 框架 Spark Streaming。 随 着 大 数据 的 发 展 ， 人 们 对 大 数据 处 理 的 要 求 也 越 来 越 高 ， 原 有 的 批 处 理 框架 MapReduce 适 合 离线 计算 ， 却 无 法 满足 实时 
性 要 求 较 高 的 业务 ， 如 实时 推荐 、 用 户 行为 分 析 等 。Spark Streaming 是 建立 在 Spark 上 的 实时 计算 框架 ， 通 过 它 提供 的 丰富 的 APl、 基 于 内 存 的 高 速 执行 引擎 ， 用 户 可 以 结合 流 式 、 批 处 理 和 交互 试 查询 应 
用 。 本 节 将 介绍 Spark Streaming 实 时 计算 框架 的 原理 、 架 构 及 使 用 。 


6.2.1 Spark Streaming 概 述 


Spark streaming 是 Spark 的 一 个 扩展 ， 可 以 实现 高 吞吐 量 并 具备 容错 机 制 的 实时 流 数据 的 处 理 。 它 支持 从 多 种 数据 源 获 取 数 据 ， 包 括 Kafk、Flume、Twitter、ZeroMQ、Kinesis 以 及 TCP sockets。 
从 数据 源 获 取 数 据 之 后 ， 可 以 使 用 诸如 map、reduce、join 和 window 等 高 级 函数 进行 算法 处 理 。 最 后 将 处 理 结果 人 存储 到 文件 系统 、 数 据 库 或 现场 仪表 盘 (live dashboard) 。 事 实 上 ， 用 户 还 可 以 使 用 
Spark 的 其 他 子 框架 ， 如 机 器 学 习 、 图 处 理 算法 等 对 数据 流 进行 处 理 。 


Spark streaming 的 处 理 流 图 如 图 6-6 所 示 ， 从 数据 源 获取 数据 之 后 ， 经 过 算法 处 理 ， 最 后 将 处 理 结果 存储 到 HDFS、 数 据 库 或 者 其 他 地 方 。 


在 BDAS 中 ，Spark 的 各 个 功能 模块 ， 都 是 基于 Spark 内 核 之 上 工作 的 。 在 Spark streaming 的 内 部 处 理 机 制 中 ， 先 接收 实时 流 的 数据 ， 进 而 根据 一 定 的 时 间 间 隔 切 分 成 一 批 批 (batches) 的 数据 块 ， 然 
后 通过 Spark Engine 对 这 些 批 数 据 进 行 算法 处 理 ， 最 终 得 到 处 理 后 的 一 批 批 结果 数据 。 有 具体 过 程 如 图 6-7 所 示 。 
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图 6-7 ”Spatk Streaming 处 理 逻 辑 


在 Spark 内 核 中 ， 切 分 后 的 批 数据 分 别 对 应 一 个 RDD 实 例 。 因 此 ， 对 应 流 数据 的 Dstream (离散 流 ， 后 面 会 讲 到 ) 可 以 看 作 是 一 组 RDD， 即 RDD 序 列 。 显 而 易 见 ， 在 流 数 据 被 切 分 成 一 批 一 批 后 ， 会 进 
入 一 个 先进 先 出 的 队列 ， 然 后 Spark Engine 从 该 队列 中 依次 取出 一 个 个 批 数据 ， 把 批 数据 封装 成 一 个 IDD， 然 后 对 RDD 利 用 各 种 算 子 处 理 。 细 心 的 读者 可 以 看 出 ， 这 是 一 个 典型 的 生产 者 消费 者 模型 。 在 本 
节 中 涉及 的 来 自 Spark Streaming 官 方 文档 的 术语 较 多 ， 下 面 先 来 了 解 这 些 重要 术语 。 


1) DStream (Discretized Stream， 离 散 流 ) : 即 Spark Streaming 对 内 部 的 持续 实时 数据 流 的 高 层 抽象 描述 。 即 我 们 处 理 的 一 个 实时 数据 流 ， 在 Spark Streaming 中 对 应 于 一 个 DStream 实 例 。 
DStream 可 以 从 来 自 不 同 数 据 源 (如 Kafka、Flume 等 ) 的 输入 数据 流 中 创建 ， 也 可 以 通过 对 其 他 DStream 进 行 变换 操作 得 到 。 在 内 部 ， 每 个 DStream 实 际 为 由 RDD 组 成 的 序列 。 


2) 批 数 据 (Batch data) : 将 实时 流 数据 以 时 间 片 为 单位 进行 切 分 ， 将 流 处 理 转 化 为 时 间 片 数据 的 批 处 理 。 随 着 持续 时 间 的 推移 ， 这 些 处 理 结果 就 形成 了 对 应 的 结果 数据 流 。 
3) 批 处 理 时 间 间 隔 (Batch interval) : 即时 间 片 。 以 时 间 片 作为 拆 分 流 数 据 的 依据 。 注 意 ， 一 个 时 间 片 的 数据 对 应 一 个 RDD 实 例 。 

4) 窗口 长 度 (Window length) : 一 个 窗口 覆盖 的 流 数 据 的 时 间 长 度 ， 必 须 是 时 间 片 的 倍数 。 

5) 滑动 时 间 间 隔 : 前 一 个 窗口 到 后 一 个 窗口 经 过 的 时 间 长 度 ， 必 须 是 时 间 片 的 倍数 。 

6) Input DStream: 一 个 特殊 的 DStream， 将 Spark Streaming 连 接 到 一 个 外 部 数据 源 来 读 取 数据 。 

在 流 数据 的 处 理 过 程 中 ， 数 据 的 传递 形式 总 体 上 可 以 分 为 三 类 。 

1) 最 多 一 次 (at-most-once) : 消息 可 能 会 丢失 ， 这 通常 是 最 不 理想 的 结果 。 

2) 最 少 一 次 (at-least-once) : 消息 可 能 会 再 次 发 送 (没有 丢失 的 情况 ， 但 是 会 产生 元 余 ) ， 该 传递 形式 在 许多 用 例 中 已 经 足够 。 

3) 恰好 一 次 (exactly-once) : 每 条 消息 都 被 发 送 目 仅 有 一 次 (没有 丢失 ,没有 匈 余 ) 。 这 是 最 佳 情 况 ， 尽 管 很 难保 证 在 所 有 用 例 中 都 实现 。 


除了 Spark Streaming 之 外 ， 目 前 业界 用 于 流 处 理 的 还 有 另外 一 个 框架 ， 即 Storm。Storm 是 一 个 分 布 式 的 、 可 靠 的 、 容 错 的 数据 流 处 理 系 统 。 它 会 把 工作 任务 委托 给 不 同类 型 的 组 件 ， 每 个 组 件 负责 处 
理 一 项 特定 的 任务 。Storm 集 群 的 输入 流 由 一 个 被 称 作 spout 的 组 件 管理 ，spout 把 数据 传递 给 bolt，bolt 要 么 把 数据 保存 到 某 种 存储 器 ， 要 么 把 数据 传递 给 其 他 bolt。 一 个 Storm 集 群 就 是 在 不 同 的 bolt 之 间 
转换 spout 传 过 来 的 数据 。 那 么 Spark Streaming 与 Storm 相 比 ， 二 者 有 何 差异 ? 下 面 从 几 个 角度 来 比较 分 析 二 者 的 差异 。 


(1) 处 理 模型 和 时 延 


虽然 Storm 和 和 Spark Streaming 都 具备 可 扩展 性 (scalability) 和 可 容错 性 (fault tole-rance) ， 但 是 它们 的 处 理 模型 还 是 不 同 的 。Storm 可 以 实现 亚 秒 级 时 延 的 处 理 ， 每 次 只 处 理 一 条 event。 而 
Spark Streaming 可 以 在 一 个 短暂 的 时 间 窗 口中 处 理 多 个 (batches) Event。 因 此 可 以 说 Storm 可 以 实现 亚 秒 级 时 延 的 处 理 ，Spark Streaming 则 有 一 定 的 时 延 。 


(2) 容错 性 


因为 在 storm 中 ， 每 条 记录 在 系统 的 移动 过 程 中 都 要 被 标记 跟踪 ， 所 以 storm 只 能 保证 每 条 记录 最 少 被 处 理 一 次 ， 但 是 允许 从 错误 状态 恢复 时 被 处 理 多 次 。 这 就 意味 着 可 变更 的 状态 可 能 被 更 新 两 次 ， 
从 而 导致 结果 不 正确 。 而 Spark Streaming 因 为 仅仅 需要 在 批 处 理 级 别 对 记录 进行 追踪 ， 所 以 能 保证 每 个 批 处 理 记 录 仅 被 处 理 一 次 ， 即 使 是 在 某 节点 宕 机 的 情况 下 。 


(3) 二 者 实现 及 编程 模型 

Storm 主 要 由 Clojure 语 言 实现 ，Spark Streaming 由 Scala 实 现 。Storm 由 BackType 和 Twitter 开 发 ， 而 Spark Streaming 是 在 UC Berkeley 开 发 的 。Storm 提 供 了 Java API， 也 支持 其 他 语言 的 API， 而 
Spark Streaming 支 持 Scala、Java 和 和 Python。 

(4) 框架 集成 

spark Streaming 的 一 个 最 重要 的 特性 是 它 基 于 Spark 框 架 上 运行 ， 这 样 用 户 就 可 以 像 开 发 其 他 批 处 理应 用 一 样 编写 Spark Streaming 程 序 ， 从 而 减少 了 很 多 额外 的 工作 。 

(5) 产业 支持 


与 Spark Streaming 相 比 ，Storm 出 现时 间 更 长 一 些 ， 并 且 被 Twitter、 雅 虎 、Spotify 和 The Weather Channel 等 公司 使 用 。 而 Spark Streaming 是 一 个 全 新 的 项 目 ， 目 前 被 亚马逊 、 雅 虎 、NASA 
JPL、eBay 还 有 百度 等 公司 使 用 。 此 外 ， 两 者 除了 在 各 自 的 集群 框架 中 运行 ， 均 可 以 在 YARN 和 Mesos 这 两 种 资源 管理 框架 上 运行 。 


storm 与 Spark Streaming 这 两 种 框架 在 处 理 连 续 性 的 大 量 实时 数据 时 均 表 现 出 色 。 那 么 在 实际 生产 中 到 | 底 使 用 哪 一 种 好 呢 ? 实际 上 选择 时 并 没有 什么 硬性 规定 ， 但 可 以 有 指导 方针 。 如 果 企业 想 要 的 
是 一 个 允许 增 量 计算 的 高 速 事件 处 理 系统 ，Sstorm 会 是 最 佳 选择 。 它 可 以 应 对 用 户 在 客户 端 等 待 结果 的 同时 ， 进 一 步 进行 分 布 式 计算 的 需求 。storm 使 用 Apache Thrift， 用 户 可 以 用 任何 编程 语言 来 编写 拓 
扑 结构 。 如 果 需 要 状态 持续 ， 同 时 或 者 达到 恰好 一 次 的 传递 效果 ， 应 当 看 看 更 高 层面 的 Trident API， 它 同时 提供 了 微 批 处 理 的 方式 。 如 果 企 业 要 求 有 状态 的 计算 ， 恰 好 一 次 的 传递 ， 并 且 不 介意 高 时 延 ， 可 
以 考虑 Spark Streaming。 尤 其 是 当 计划 图 形 操作 、 机 器 学 习 或 者 访问 SQL 时 ，Apache Spark 的 stack 人 允许 将 一 些 library 与 数据 流 相 结合 (Spark SQL、MIllib、GraphX) ， 它 们 会 提供 便捷 的 一 体 化 编程 模 
型 ， 特 别 是 数据 流 算法 (如 K 均 值 流 媒体 ) 促进 了 Spark 实 时 决策 ， 不 过 应 当 注意 Storm 与 Spark Streaming 也 在 持续 不 断 地 发 展 完善 中 。 


6.2.2 Spark Streaming 的 架构 分 析 


前 面 已 经 讲 过 ，Spark Streaming 将 流 式 计算 分 解 成 一 系列 短小 的 批 处 理 作 业 。 这 里 的 批 处 理 引 擎 是 Spark Core， 也 就 是 把 Spark Streaming 的 输入 数据 按照 batch size (如 1 秒 ) 切 分 成 一 段 一 段 的 数 
据 (Discretized Stream) ， 每 一 段 数据 都 转换 成 Spark 中 的 RDD (Resilient Distributed Dataset) ， 然 后 将 Spark Streaming 中 对 DStream 的 Transformation 操 作 变 为 针对 Spark 中 对 RDD 的 
Transformation 操 作 ， 将 RDD 经 过 操作 变 成 中 间 结 果 保 存在 内 存 中 。 整 个 流 式 计算 根据 业务 的 需求 可 以 对 中 间 的 结果 进行 私 加 或 者 存储 到 外 部 设备 。 图 6-8 为 Spark Streaming 的 整个 流程 。 
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图 6-8 ”Spark Streaming 的 架构 


对 于 流 式 计算 而 言 ， 容 错 性 非常 关键 。 在 前 面 介绍 Spark 原 理 时 ， 曾 经 讲 过 Spark 中 RDD 的 容错 机 制 主 要 分 为 两 部 分 : lineage 和 checkpoint。 每 一 个 RDD 都 是 一 个 不 可 变 的 分 布 式 可 重 算 的 数据 集 ， 其 
记录 着 确定 性 的 操作 继承 关系 (lineage) 。 所 以 在 输入 数据 可 重用 的 情况 下 ， 只 要 RDD 的 分 区 (Partition) 出 错 ， 就 可 以 利用 原始 输入 数据 通过 转换 操作 重新 算出 。 


对 Spark Streaming 来 说 ， 其 RDD 的 传承 关系 如 图 6-9 所 示 ， 图 6-9 中 的 每 一 个 椭圆 形 表示 一 个 RDD， 椭 圆 形 中 的 每 个 圆 形 代表 一 个 RDD 中 的 一 个 Partition， 图 6-9 中 每 一 列 的 多 个 RDD 表 示 一 个 
DStream (图 中 有 三 个 DStream) ， 而 每 一 行 最 后 一 个 RDD 则 表示 每 一 个 Batch Size 产 生 的 中 间 结 果 RDD。 可 以 看 到 图 6-9 中 的 每 一 个 RDD 都 是 通过 lineage 相 连接 的 ， 由 于 Spark Streaming 输 入 数据 可 以 
来 自 于 磁盘 ， 如 HDFS (多 份 拷贝 ) 或 是 网 络 的 数据 流 (Spark Streaming 会 将 网 络 输入 数据 的 每 一 个 数据 流 拷贝 两 份 到 其 他 的 机 器 ) ， 都 能 保证 容错 性 ， 所 以 RDD 中 任意 的 Partition 出 错 ， 都 可 以 并 行 地 
在 其 他 机 器 上 将 缺失 的 Partition 计 算出 来 。Spark 的 这 种 容错 恢复 方式 比 Storm 的 效率 更 高 。 


另外 ，Spark Streaming 将 流 式 计算 分 解 成 多 个 Spark Job， 对 于 每 一 段 数据 的 处 理 都 会 经 过 Spark DAG 图 分 解 以 及 Spark 的 任务 集 的 调度 过 程 。 目 前 版 本 的 Spark Streaming 最 小 的 Batch Size 在 
0.5~2s (Storm 目 前 最 小 的 延迟 是 100ms 左 右 ) ， 所 以 Spark Streaming 能 够 满足 除 对 实时 性 要 求 非常 高 (如 高 频 实时 交易 ) 之 外 的 几乎 所 有 流 式 准 实时 计算 场景 。 
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图 6-9 Spark Streaming lineage 


6.2.3 ” Spark Streaming 编 程 模型 


Spark Streaming 提 出 DStream (Discretized Stream) 作为 持续 数据 流 的 抽象 。 这 些 数据 流 既 可 以 通过 外 部 输入 源 获 取 ， 也 可 以 通过 现 有 的 Dstream 的 transformation 操 作 来 获得 。 在 内 部 实现 


上 ，DStream 由 一 组 时 间 序 列 上 连续 的 RDD 来 表示 ， 每 个 RDD 都 包含 了 自己 特定 时 间 间 隔 内 的 数据 流 。 图 6-10 为 DStream 中 在 时 间 轴 下 生成 离散 的 RDD 序 列 。 
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从 时 间 点 0 到 | _ | 从 时 间 点 1 到 | | 从 时 间 操 2 到 | 从 时 间 扣 3 到 
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图 6-10 ”DStream 及 其 离散 RDD 序 列 
另 一 方面 ， 对 DStream 中 数据 的 各 种 操作 也 可 以 转换 并 映射 到 内 部 的 RDD 上 来 执行 ， 如 图 6-11 所 示 。 对 Dtream 的 操作 可 以 通过 RDD 的 transformation 生 成 新 的 DStream， 当 然 ， 这 一 切 都 是 基于 


Spark。 
至 此 ， 读 者 想必 对 Spark Streaming 的 原理 有 了 一 定 的 理解 。 下 面 重 点 介绍 Spark Streaming 的 编程 模型 。 作 为 构建 于 Spark 之 上 的 应 用 框 刀 
解 Spark 的 用 户 来 说 能 够 快速 上 手 。Spark Streaming 官 方 网 站 提供 了 WordCount 示 例 ， 本 书 将 以 这 个 经 典 的 例子 入 手 ， 来 前 述 Spark Streaming 的 编程 模型 。 
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图 6-11 DStream 与 RDD 


代码 清单 6-8 ”WordCount 代 码 


架 ，Spark Streaming 承 袭 了 Spark 的 编程 风格 ， 对 于 已 经 了 





import org.apache.spark. 
import org.apache.spark.streaming. 
import org.apache.spark.streaming.StreamingContext. // not necessary since Spark 1.3 











from a starvation scenario. 


// The master requires 2 cores to prevent 
[2]") .setAppName ("NetworkWordCount") 


val conf = new SparkConf() .setMaster ("local 














// 创建 本 地 的 StreamingContext 并 设 定 批 处 理 时 间 间 隔 为 1s 


val ssc = new StreamingContext (conf, Seconds (1)) 














// 创建 DStream 连接 到 指定 的 hostname:port， 如 localhost:9999 




















val lines = ssc.socketTextStream("localhost", 9999) 
// 切 分 每 行为 单词 
val words = lines.flatMap( .split(" ")) 














import org.apache.spark.streaming.StreamingContext. // not necessary since Spark 1.3 


// 计算 每 批 中 的 单词 数量 
val pairs = words.map (word => (wordqd, 
val wordCounts = pairs.reduceByKey( ) 
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// 在 终端 打印 DStream 中 每 个 RDD 的 前 10 个 单词 
wordCounts .print () 





ssc.start () // Start the computation 
ssc.awaitTermination() // Wait for the computation to terminate 








读者 学 习 了 Spark SQL 的 内 容 之 后 ， 不 难 从 上 面 的 WordCount 例 子 中 看 出 Spark Streaming 编 程 模型 的 重要 步骤 ， 这 里 总 结 如 下 : 


1) 需要 import Spark Streaming 类 及 一 些 隐 式 转换 ， 便 于 后 续 使 用 。 因 为 Streaming-Context 是 所 有 streaming 功 能 的 主 入 口 ， 所 以 先 要 创建 本 地 的 Streaming-Context 对 象 。 需 要 注意 的 是 ， 参 数 
Seconds (1) 、Spark Streaming 需 要 指定 处 理 数据 的 时 间 间 隔 ， 如 上 例 所 示 的 1s， 那 么 Spark Streaming 会 以 1s 为 时 间 窗 口 进行 数据 处 理 。 此 参数 需要 根据 用 户 的 需求 和 集群 的 处 理 能 力 进行 适当 的 设 
置 。 


2) 创建 InputDStream。 与 Storm 的 Spout 类 似 ，Spark Streaming 需 要 指明 数据 源 。 如 代码 清单 6-8 中 的 socketTextStream，Spark Streaming 以 socket 连 接 作 为 数据 源 读 取 数据 。 当 然 Spark 
Streaming 支 持 多 种 不 同 的 数据 源 ， 包 括 Kafka、Flume、HDFS/S3、Kinesis 和 Twitter 等 。 


3) 操作 DStream。 对 于 从 数据 源 得 到 的 DStream， 用 户 可 以 在 其 基础 上 进行 各 种 操作 ， 如 代码 清单 6-8 所 示 的 操作 就 是 一 个 典型 的 WordCount 执 行 流程 : 对 于 当前 时 间 窗 口内 从 数据 源 得 到 的 数据 首 
先进 行 分 割 ， 然 后 利用 Map 和 ReduceByKey 方 法 进行 计算 ， 当 然 最 后 还 使 用 print () 方法 输出 结果 


4) 启动 Spark streaming 之 前 ， 所 做 的 所 有 步骤 只 是 创建 了 执行 流程 ， 程 序 没有 真正 连接 上 数据 源 ， 也 没有 对 数据 进行 任何 操作 ， 只 是 设 定好 了 所 有 的 执行 步骤 ，ssc.start () 启动 后 ， 程 序 才 真正 执 
行 所 有 既定 的 操作 。 


至 此 ， 读 者 应 该 对 Spark streaming 的 编程 步骤 有 了 初步 的 了 解 ， 后 面 会 继续 探究 Spark Streaming 的 执行 流程 。 


6.2.4 ”数据 源 Data Source 


数据 源 是 流 式 计算 的 起 点 ，Spark Streaming 提 供 了 两 种 内 置 数据 源 ， 即 基础 来 源 (basic source) 与 高 级 源 (advanced source) ， 下 面 分 别 介绍 。 
1. 基 础 来 源 

基础 来 源 即 在 StreamingContext API 中 直接 可 用 的 来 源 ， 如 file system、Socket 连 接 以 及 Akka actors。 

(1) 从 Socket 连 接 创建 

在 前 面 程序 示例 中 使 用 了 ssc.socketTextStream () 方法 ， 即 通过 TCP socket 套 接 字 连接 ， 从 文本 数据 中 创建 了 一 个 DSstream。 

(2) 从 文件 系统 创建 


Spark Streaming 提 供 了 streamingContext.fileStream (dataDirectory) 方法 可 以 从 任何 文件 系统 (如 HDFS、S3、NFS 等 ) 的 文件 中 读 取 数 据 ， 然 后 创建 一 个 DStream。Spark Streaming 监 控 
dataDirectory 目 录 和 在 该 目录 下 任何 文件 的 创建 处 理 (不 支持 在 嵌 套 目录 下 写 文 件 ) 。 需 要 注意 如 下 几 点 : 


1) 读 取 的 必须 是 具有 相同 数据 格式 的 文件 。 

2) 创建 的 文件 必须 在 dataDirectory 目 录 下 ， 并 通过 自动 移动 或 重 命名 成 数据 目录 。 

3) 文件 一 旦 移动 就 不 能 被 改变 ， 如 果 文件 被 不 断 追 加 ， 新 的 数据 将 不 会 被 阅读 。 

对 于 简单 的 text 文 件 ， 可 以 使 用 一 个 简单 的 方法 streamingContext.textFileStream (dataDirectory) 来 读 取 数据 。 
(3) 从 Akka actors 创 建 


Spark Streaming 也 可 以 基于 自 定义 Actors 的 流 创建 DStream， 通 过 Akka actors 接 受 数 据 流 ， 创 建 方法 为 streamingContext.actorStream (actorProps，actor-name) 。Spark Stream-ing 也 可 以 
使 用 streamingContext.queueStream (queueOfRDDs) 方法 创建 基于 RDD 队 列 的 DStream， 每 个 RDD 队 列 将 被 视 为 DStream 中 一 块 数据 流 进行 加 工 处 理 。 
2. 高 级 来 源 


高 级 来 源 如 Kafka、Flume、Kinesis、Twitter 等 。 这 一 类 的 来 源 需要 外 部 非 Spark 库 的 接口 ， 其 中 一 些 有 复杂 的 依赖 关系 (如 Kafka、Flume) 。 因 此 通过 这 些 来 源 创建 Dstreams 需 要 明确 其 依赖 。 例 


如 ， 如 果 想 创建 一 个 使 用 Twitter 数据 的 Dstream 流 ， 可 以 参考 如 下 步骤 


~ 


1) 依赖 : 在 SBT 或 Maven 工 程 中 添加 spark-streaming-twitter 2.10 及 其 依赖 包 。 

2) 开发 : 导入 TwitterUtils 包 ， 通 过 TwitterUtils.createStream 方 法 创建 一 个 DStream。 

3) 部 署 : 部 署 应 用 程序 。 

如 果 需 要 在 Spark shell 中 使 用 高 级 源 ， 那 么 需要 下 载 相 应 的 Maven 工 程 的 Jar 依 赖 并 添加 到 类 路 径 中 ， 因 为 这 些 高 级 源 一 般 在 Spark Shell 中 不 可 用 。 
本 章 在 写作 时 ，Spark 已 经 发 布 了 1.5.2 版 。 下 面 列举 一 些 和 最 新 版 Spark 相 兼容 的 高 

1) Kafka: Spark Streaming 1.5.2 与 Kafka 0.8.2.1 兼 容 。 


2) Flume: Spark Streaming 1.5.2 与 Flume 1.6.0 兼 容 。 


3) Kinesis: Spark Streaming 1.5.2 与 Kinesis Client Library1.2.1 兼 容 。 
4) Twitter: 通过 Spark Streaming 的 TwitterUtils 工 具 类 使 用 Twitter4j3.0.3 来 获得 tweets 的 公开 流 。 


需要 重申 的 一 点 是 在 开始 编写 自己 的 SparkSstreaming 程 序 之 前 ， 要 将 高 级 来 源 依赖 的 Jar 添 加 到 SBT 或 Maven 项 目 相应 的 artifact 中 。 除 了 上 面 列 举 的 源 之 外 ，Input DStream 也 可 以 创建 自 定义 的 数据 
源 ， 需 要 做 的 就 是 实现 一 个 用 户 定 义 的 Receiver。 具 体 步骤 可 以 参见 官方 文档 ， 这 里 不 再 敖 述 。 


6.2.5 ”DStream 操 作 


DStream 的 操作 可 以 分 成 三 类 : 通用 的 转换 操作 、 窗 口 转换 操作 和 输出 操作 。 
1. 通 用 的 转换 操作 
一 些 通 用 的 转换 操作 如 表 6-1 所 示 。 


表 6-1 DStream 中 通用 的 转换 操作 


转换 摘 述 
Map(func) 源 DStream 的 每 个 元 系 通 过 困 数 func 返回 一 个 新 的 DStream 
类 似 于 map 操作 ， 不 同 的 是 每 个 输入 元 素 可 以 被 映射 出 0 或 者 更 多 的 输 
flatMap(func) 
出 元 素 
在 源 DStream 上 选择 Func 因数 返回 仅 为 true 的 元 系 ， 最 终 返 回 一 个 新 的 
filter(func) 
DStream 
repartition(numPartitions) 通过 输入 的 参数 numPartitions 的 值 来 改变 DStream 的 分 区 大 小 
union(otherStream) 返回 一 个 包含 源 DStream 与 其 他 DStream 的 元 素 合 并 后 的 新 DStream 
对 源 DStream 内 部 含有 的 RDD 的 元 素数 量 进行 计数 ， 返 回 一 个 包含 单元 
count() 
条 RDD 的 新 DStream 
使 用 晒 数 func (有 两 个 参数 并 返回 一 个 结果 ) 对 源 DStream 中 每 个 RDD 
reduce(func) 
的 元 素 进 行 聚 合 操作 ， 返 回 一 个 包含 单元 素 RDD 的 新 DStream 
计算 DStream 中 每 个 RDD 内 的 元 系 出 现 的 频次 并 返回 新 的 DStream 
countByValue() 





[(K,Long)]|， 其 中 K 是 RDD 中 元 素 的 类 型 ，Long 是 元 素 出 现 的 频次 


当 一 个 类 型 为 (K,V) 键 值 对 的 DStream 被 调用 时 ， 返 回 类 型 为 (K,V) 键 
值 对 的 新 DStream， 其 中 每 个 键 的 值 V 都 是 使 用 聚合 浮 数 func 汇总 

当 被 调用 类 型 分 别 为 (K,V) 和 (K,W) 键 值 对 的 2 个 DStream 时 ， 返回 类 
型 为 (K, (V W)) 键 值 对 的 一 个 新 DSTREAM 


当 被 调用 的 两 个 DStream 分 别 含 有 (K,V) 和 (K,W) 键 值 对 时 ， 返 回 一 个 
(K,Seq[V]，Seq[W]) 类 型 的 新 的 DStream 


reduceByKey(func,[numTasks]) 


Join(otherStream,[numTasks]|) 


cogroup(otherStream,[numTasks]) 


( 续 ) 
转换 摘 述 
nt 通过 对 源 DStream 的 每 RDD 应 用 RDD-to-RDD 函 数 返 回 一 个 新 的 
a | DStream， 这 可 以 用 来 在 DStream 做 任意 RDD 操作 
返回 一 个 新 状态 的 DStream， 其 其 中 每 个 铂 的 状态 是 根据 的 前 一 个 状态 和 键 
updateStateByKey(func) 的 新 值 应 用 给 定 图 数 func 后 的 更 新 。 这 个 方法 可 以 用 来 维持 每 个 键 的 任何 状 


在 图 6-12 列 出 的 这 些 操作 中 ，updateStateByKey 变 换 值得 注意 。updateStateByKey 操 作 人 允许 用 户 维持 任意 状态 ， 同 时 不 断 用 新 信息 更 新 。 要 使 用 此 功能 只 需 两 个 步骤 : 
1) 定义 状态 : 可 以 是 任意 的 数据 类 型 。 


2) 定义 状态 更 新 函数 : 用 一 个 函数 指定 如 何 使 用 先前 的 状态 和 从 输入 流 中 获取 的 新 值 ， 以 更 新 状态 。 


time 1 


time 2 


下 EE ES Es EE EE Es Es Es Es! Ey Es Es Es es es Ey Es es mig 


time 3 time 4 time $ 





original | _ 
DStream ‘Ls 5 二 __ 
window-based 
windowed | Ooon 
DStream | 
window window window 
at time 1 at time 3 at time $ 


图 6-12 window 滑动 示意 图 


下 面 用 例子 来 说 明 。 假 如 要 统计 文本 数据 流 中 的 单词 数 。 在 这 里 ， 正 在 运行 的 计数 是 状态 并 且 是 一 个 整数 ， 那 么 可 以 定义 更 新 功能 如 代码 清单 6-9 所 示 。 


代码 清单 6-9 ”定义 计数 更 新 功能 














def updateFunction (newValues: Seqgql[lInt], runningCount: Option[Int]): 

















Option[Int] 
// add the new values with the previous running count to get the new count 





= A 





val newCount = http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16122/0EBPS/Text/... 


Some (newCount) 














此 函数 应 用 于 含有 键 值 对 的 Dstream 中 (如 前 面 的 示例 中 ，DStream 含 有 (word,， 


值 ，runningCount 是 之 前 的 值 。 


代码 清单 6-10 ”更 新 计数 


1) 键 值 对 ) 。 它 会 针对 里 面 的 每 个 元 素 (如 wordCount 中 的 word) 调用 更 新 函数 ，newValues 是 最 新 的 











val runningCounts = pairs.updateStateByKey[Int] (updateFunction ) 








2. 窗 口 (Window) 转换 操作 


Spark Streaming 人 允许 通过 滑动 窗口 对 数据 进行 转换 ， 窗 口 转换 操作 如 表 6-2 所 示 : 


转换 


window(windo wLength, slideInterval) 
countByWindow(windowLenegth,slideInterval) 


reduceByWindow(func, windowLenegth, 
slideInterval) 

reduceByKeyAndWindow(func, window- 
Length, slideInterval, [numTasks]|) 

reduceByKeyAndWindow(func, 1nvFunc, 


windowLenegth, slideInterval, [numTasks]) 


countByValueAndWindow(windowLength,slid 


elnteravl,[numTasks]) 


在 Spark Streaming 中 ， 数 据 处 理 是 按 批 (batch) 进行 的 ， 而 数据 采集 是 
据 汇集 起 来 成 为 一 批 数据 交 给 系统 处 理 。 


表 6-2 窗口 转换 操作 


描述 
返回 一 个 基于 源 DStream 的 窗口 批 次 计算 后 得 到 新 的 DStream 
返回 基于 滑动 窗口 的 DStream 中 的 元 素 的 数量 
基于 消 动 窗口 ， 对 源 DStreamk 中 的 元 双 进 行 聚 合 操作 ， 得 到 
一 个 新 的 DStream 
基于 滑动 窗口 ， 对 〈K, V) 键 值 对 类 型 的 DStream 中 的 值 按 K 


使 用 聚合 也 数 func 进行 聚合 操作 ， 得 到 一 个 新 的 DStream 


一 个 更 高 效 的 reduceByKeyAndWindow() 实现 版 本 ， 其 中 每 个 
窗口 的 reduce 值 使 用 上 一 个 窗口 的 reduce 值 增 量 计算 而 得 

基于 滑动 窗口 ， 计 算 源 DStream 中 每 个 RDD 内 每 个 元 系 出 现 
的 频次 并 返回 DStream[ ( K, Long)]， 其 中 是 RDD 中 元 系 的 类 
型 ，Long 是 元 系 频 次 


二 





逐条 进行 的 。 因 此 在 Spark Streaming 中 会 先 设置 好 批 处理 间 隔 (batch duration) ， 当 超过 批 处 理 间隔 时 ， 会 把 采集 到 的 数 


对 于 窗口 操作 而 言 ， 在 其 窗口 内 部 会 有 若干 批 处 理 数据 ， 批 处 理 数据 的 大 小 由 窗口 间隔 (window duration) 决定 ， 而 窗口 间隔 指 的 就 是 窗口 的 持续 时 间 。 在 窗口 操作 中 ， 只 有 窗口 的 长 度 满足 了 ， 才 


会 触发 批 数据 的 处 理 。 除 了 窗口 的 长 度 ， 窗 口 操 作 还 有 另 一 个 重要 的 参数 就 是 滑动 间隔 (slide duration) ， 它 是 指 经 过 多 长 时 间 窗 口 滑动 一 次 形成 新 的 窗口 ， 在 这 里 必须 注意 的 一 点 是 滑动 间隔 和 窗口 间隔 


的 大 小 必须 设置 为 批 处 理 间 隔 的 整数 倍 。 


如 图 6-12 所 示 ， 批 处 理 间隔 是 1 个 时 间 单 位 ， 窗 口 间隔 是 3 个 时 间 单 位 ， 滑 动 间隔 是 2 个 时 间 单 位 。 对 于 初始 的 窗口 time 1-time 3， 只 有 窗口 间隔 满足 了 ， 才 触发 数据 的 处 理 。 这 里 需要 注意 的 一 点 是 ， 


初始 的 窗口 有 可 能 流入 的 数据 没有 撑 满 ， 但 是 随 着 时 间 的 推进 ， 窗 口 最 终 会 被 撑 满 。 当 每 过 2 个 时 间 单位 ， 窗 口 滑动 一 次 后 ， 会 有 新 的 数据 流入 窗口 ， 这 时 窗口 会 移 去 最 早 的 两 个 时 间 单 位 的 数据 ， 而 与 最 新 
的 两 个 时 间 单位 的 数据 进行 汇总 形成 新 的 窗口 (time3-time5) 。 对 于 窗口 操作 ， 批 处 理 间隔 、 窗 口 间隔 和 滑动 间隔 是 非常 重要 的 三 个 时 间 概 念 ， 


3. 输 出 (Output) 操作 


流 计算 的 结果 可 以 输出 到 外 部 系统 ， 如 数据 库 或 文件 系统 。 由 于 输出 操作 实际 上 使 transformation 操 作 后 的 数据 可 以 通过 外 部 系统 被 使 用 ， 同 时 输出 操作 触发 所 有 DStream 的 transformation 操 作 的 实 


读者 务必 掌握 。 


际 执行 (类似 于 RDD 的 action 操 作 ) 。 表 6-3 中 列 出 了 目前 主要 的 输出 操作 。 


表 6-3 主要 输出 操作 


转换 搬 述 
print() 在 Driver 中 打印 出 DStream 中 数据 的 前 10 个 元 素 
将 DStream 中 的 内 容 以 文本 的 形式 保存 为 文本 文件 ， 其 中 每 次 批 处 理 间 
隔 内 产生 的 文件 以 prefx-TIME IN MS[.sufGx] 的 方式 命名 
将 DStream 中 的 内 容 按 对 象 序 列 化 并 且 以 SequenceFile 的 格式 保存 。 
中 每 次 批 处 理 间隔 内 产生 的 文件 以 prefix-TIME _IN_MS[.suffix] 的 方式 命 各 
saveAsHadoopFiles(prefix, [suffix|) 将 I A A ee Hodoop lhe er RR 
理 间隔 内 产生 的 文件 以 prefix-TIME _IN_MS[.suffix] 的 方式 命名 
最 基本 的 输出 操作 ， 将 func 轴 数 应 用 于 DStream 中 的 RDD 上 ， 这 个 操 
foreachRDD(func) 作 会 输出 数据 到 外 系统 ， 比 如 保存 RDD 到 文件 或 者 网 络 数据 库 等 。 
注意 的 是 ，func 困 数 是 在 运行 该 streaming 应 用 的 Driver 进程 中 执行 的 


SaveAsTextFlles(preflx, [Sufflx]) 


saveAsObjectFiles(prefix, [suffix|) 


dstream.foreachRDD 是 一 个 将 数据 输出 到 外 部 系统 的 操作 ， 但 如 何 正确 有 效 地 使 用 这 个 操作 很 重要 。 下 面 的 程序 示例 展示 了 如 何 避 免 一 些 常 见 的 错误 。 


通常 将 数据 写 入 外 部 系统 需要 创建 一 个 连接 对 象 (如 TCP 连 接 到 远程 服务 器 ) ， 并 用 它 来 发 送 数据 到 远程 系统 。 出 于 这 个 目的 ， 开 发 者 可 能 在 不 经 意 间 在 Spark driver 端 创建 了 连接 对 象 ， 并 尝试 使 用 它 
保存 RDD 中 的 记录 到 Spark worker 上 ， 如 代码 清单 6-11 所 示 。 


代码 清单 6-11 创建 连接 对 象 错误 方法 (一 ) 


dstream.foreachRDD { rdd => 
val connection = createNewConnection() // executed at the driver 
rdd.foreach { record => 
connection .send (record) // executed at the worker 








这 是 不 正确 的 ， 这 需要 连接 对 象 进行 序列 化 并 从 Driver 端 发 送 到 Worker 上 。 连接 对 象 很 少 在 不 同 机 器 间 进 行 这 种 操作 ， 此 错误 可 能 表现 为 序列 化 错误 (连接 对 象 不 可 序列 化 ) 、 初 始 化 错误 (连接 对 象 
在 需要 在 Worker 上 进行 需要 初始 化 ) 等 。 看 到 这 里 ， 开 发 者 往往 认为 正确 的 解决 办 法 是 在 Worker 上 创建 的 连接 对 象 ， 如 代码 清单 6-12 所 示 。 


代码 清单 6-12 创建 连接 对 象 错误 方法 (二 ) 


dstream.foreachRDD { rdd => 
rdd.foreach { record => 
Val connection = createNewConnection () 
connection.send (record) 
connection.close() 








但 这 种 方案 也 许 会 引发 另外 一 个 常见 的 问题 : 即 为 每 条 记录 创建 一 个 连接 。 通 常情 况 下 ， 创 建 一 个 连接 对 象 必然 会 带 来 时 间 和 资源 方面 的 开销 。 因 此 ， 创 建 和 销毁 记录 的 连接 对 象 会 引 友 不 必要 的 资源 
开销 ， 并 显著 降低 系统 的 吞吐 量 。 一 个 更 好 的 办 法 是 使 用 rdd.foreachPartition 方 法 创建 一 个 单独 的 连接 对 象 ， 然 后 使 用 该 连接 对 象 将 RDD 分 区 中 的 所 有 记录 输出 到 外 部 系统 ， 如 代码 清单 6-13 所 示 。 


代码 清单 6-13 ”正确 的 创建 连接 对 象 方法 





dstream.foreachRDD { rdd => 
rdd.foreachPartition { partitionOfRecords => 
val connection = createNewConnection () 
partitionOfRecords.foreach (record => connection.send (record)) 
connection.close() 




















} 
} 














代码 清单 6-13 将 创建 连接 的 开销 分 摊 到 了 每 条 记录 上 。 不 过 还 可 以 在 多 个 RDDs/batches 之 间 重 用 连接 对 象 来 进一步 优化 代码 效率 。 使 用 一 个 维护 连接 对 象 的 静态 池 ， 连 接 对 象 可 以 重用 在 多 个 批 处 理 
的 RDD 上 将 其 输出 到 外 部 系统 ， 从 而 进一步 降低 了 开销 ， 如 代码 清单 6-14 所 示 。 


代码 清单 6-14 ”通过 连接 对 象 的 静态 池 创 建 连接 对 象 





dstream.foreachRDD { rdd => 
rdd.foreachPartition { partitionOfRecords => 























// ConnectionPool is a static, lazily initialized pool of connections 
val connection = ConnectionPool .getConnection () 
partitionOfRecords.foreach (record => connection.send (record)) 
ConnectionPool.returnConnection (connection) // return to the pool for future reuse 
} 

} 
































需要 注意 的 是 ， 在 静态 池 中 的 连接 应 该 按 需 延迟 创建 ， 这 样 可 以 更 有 效 地 把 数据 发 送 到 外 部 系统 ， 并 且 DStreams 是 延迟 执行 的 ， 就 像 RDD 的 操作 是 由 action 触 发 一 样 。 在 默认 情况 下 ， 输 出 操作 会 按照 
它们 在 Streaming 应 用 程序 中 定义 的 顺序 依次 执行 。 


6.3 SparkR 


6.3.1 ”R 语 言 概述 


在 介绍 SparkR 之 前 ,需要 先 掌握 R 语 言 的 一 些 基本 知识 。R 语 言 是 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 ， 也 是 属于 GNU 系 统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 ， 它 是 一 个 用 于 统计 计算 和 统计 制 
图 的 优秀 工具 。 它 是 统计 领域 曾经 广泛 使 用 的 诞生 于 1980 年 左右 的 S 语 言 的 一 个 分 支 ， 也 可 以 看 作 是 9 语言 的 一 种 实现 。Ss 语 言 是 由 AT&T 贝 尔 实验 室 开 发 的 一 种 用 来 进行 数据 探索 、 统 计 分 析 、 作 图 的 解释 型 
语言 。 最 初 S 语 言 的 实现 版 本 主要 是 S-PLUS。S-PLUS 是 一 个 商业 软件 ， 它 基于 s 语 言 ， 并 由 MathSoft 公 司 的 统计 科学 部 进一步 完善 。 后 来 Auckland 大 学 的 Robert Gentleman 和 Ross lhaka 及 其 他 志愿 者 
开发 出 R 系 统 。R 的 使 用 与 5-PLUS 有 很 多 类 似 之 处 ， 两 个 软件 有 一 定 的 兼容 性 。S-PLUS 的 使 用 手册 ， 只 要 经 过 不 多 的 修改 就 能 成 为 R 的 使 用 手册 。 换 句 话说 : R 是 -PLUS 的 一 个 “克隆 ” ， 但 不 同 之 处 在 于 R 


语言 是 免费 的 。 
总 体 而 言 ，R. 是 一 套 完 整 的 数据 处 理 、 计 算 和 制图 软件 系统 。 其 主要 特征 大 臻 可 以 概括 为 如 下 几 点 : 
1) 数据 人 存储 和 处 理 系统 。 
2) 数组 运算 工具 (其 向 量 、 和 矩阵 运算 方面 功能 尤其 强大 ) 。 
3) 完整 连贯 的 统计 分 析 工 具 。 
4) 优秀 的 统计 制图 功能 。 
5) 简便 而 强大 的 编程 语言 : 可 操纵 数据 的 输入 和 输出 ， 可 实现 分 支 、 循 环 ， 用 户 可 自 定义 功能 。 
因此 ， 与 其 说 R 是 一 种 统计 软件 ， 还 不 如 说 R 是 一 种 数学 计算 的 环境 。 因 为 R 并 不 是 仅仅 提供 若干 统计 程序 ， 用 户 只 需 指定 数据 库 ， 并 指定 若干 参数 ， 便 可 开始 做 统计 分 析 。 


R 在 提供 一 部 分 统计 工具 的 同时 ， 还 提供 了 各 种 数学 计算 、 统 计 计算 的 函数 ， 从 而 让 用 户 能 按照 自己 的 需求 来 做 数据 分 析 ， 也 可 以 开发 符合 需要 的 统计 计算 方法 。R 内 置 了 多 种 统计 学 及 数字 分 析 功 能 。 
R 语 言 的 功能 也 可 以 透 过 安装 套件 (Packages， 用 户 撰写 的 功能 ) 来 增强 。 增 加 的 功能 有 特殊 的 统计 技术 、 绘 图 功能 ， 以 及 编程 界面 和 数据 输出 /输入 功能 。 这 些 软件 包 是 由 R 语 言 、LaTeX、Java 及 最 常用 C 
语言 或 Fortran 语 言 开 发 的 。 下 载 的 版 本 会 包含 一 批 核心 功能 的 软件 包 ， 而 根据 CRAN (The Comprehensive R Archive Network) 统计 ， 这 些 软件 包 超过 了 一 干 种 。 其 中 有 几 款 较为 常用 ， 如 用 于 经 济 计 
量 、 财 经 分 析 、 人 文科 学 研究 以 及 人 工 智 能 。 因 为 与 语言 的 天 生 血 缘 关 系 ，R 比 其 他 统计 学 或 数学 专用 的 编程 语言 具有 更 强 的 面向 对 象 程序 设计 功能 。 此 外 虽然 R 语 言 是 主要 用 于 统计 分 析 或 者 开发 统计 相 
天 的 软件 ， 但 也 有 人 用 作 和 矩阵 计算 。 其 分 析 速 度 可 与 CNU Octave 旋 至 商业 软件 MATLAB 相 媲美 。 


R 语 言 的 语法 与 C 语 言 有 些 类 似 ， 但 在 语义 上 是 函数 设计 语言 的 (functional progr-am-ming language) 的 变种 并 且 和 Lisp 以 及 APL 有 很 强 的 兼容 性 。 特 别 的 是 ， 它 允许 在 “语言 上 计 
算 ” (computing on the language) 。 这 使 得 它 可 以 把 表达 式 作 为 函数 的 输入 参数 ， 而 这 种 做 法 对 统计 模拟 和 绘图 非常 有 用 。 


同时 ，R 是 一 个 免费 的 自由 软件 ， 对 于 目前 主流 的 平台 都 可 以 免费 下 载 和 使 用 。R 的 主要 网 站 是 http://www.r-project.org， 在 这 里 可 以 下 载 R 的 安装 程序 和 源 代码 ， 及 各 种 外 挂 程序 和 文档 。 
R 语 言 的 擅长 之 处 主要 可 以 概括 为 如 下 几 点 : 

1) 统计 计算 (R 的 强项 ) 。 

2) 机 器 学 习 。 

3) 高 性 能 计算 (向 量化 与 并 行 /分 布 式 计算 ) 。 

4) 和 矩阵 运算 。 


5) 编写 接口 与 工具 包 。 


6.3 SparkR 


6.3.1 ”R 语 言 概述 


在 介绍 SparkR 之 前 ， 需 要 先 掌握 R 语 言 的 一 些 基本 知识 。R 语 言 是 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 ， 也 是 属于 GNU 系 统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 ， 它 是 一 个 用 于 统计 计算 和 统计 制 
图 的 优秀 工具 。 它 是 统计 领域 曾经 广泛 使 用 的 诞生 于 1980 年 左右 的 S$ 语言 的 一 个 分 支 ， 也 可 以 看 作 是 $ 语 言 的 一 种 实现 。S 语 言 是 由 AT&T 贝 尔 实验 室 开发 的 一 种 用 来 进行 数据 探索 、 统 计 分析 、 作 图 的 解释 型 
语言 。 最 初 $ 语 言 的 实现 版 本 主要 是 S$-PLUS。S-PLUS 是 一 个 商业 软件 ， 它 基于 S$ 语言 ， 并 由 MathSoft 公 司 的 统计 科学 部 进一步 完善 。 后 来 Auckland 大 学 的 Robert Gentleman 和 Ross lhaka 及 其 他 志愿 者 
开发 出 R 系 统 。R 的 使 用 与 -PLUS 有 很 多 类 似 之 处 ， 两 个 软件 有 一 定 的 兼容 性 。S-PLUS 的 使 用 手册 ， 只 要 经 过 不 多 的 修改 就 能 成 为 R 的 使 用 手册 。 换 句 话说 : R 是 S$-PLUS 的 一 个 “克隆 ”， 但 不 同 之 处 在 于 R 
语言 是 免费 的 。 


总 体 而 言 ，R. 是 一 套 完 整 的 数据 处 理 、 计 算 和 制图 软件 系统 。 其 主要 特征 大 臻 可 以 概括 为 如 下 几 点 : 


ll 


1) 数据 存储 和 处 理 系 统 。 

2) 数组 运算 工具 (其 向 量 、 和 矩阵 运算 方面 功能 尤其 强大 ) 。 

3) 完整 连贯 的 统计 分 析 工 具 。 

4) 优秀 的 统计 制图 功能 。 

5) 简便 而 强大 的 编程 语言 : 可 操纵 数据 的 输入 和 输出 ， 可 实现 分 支 、 循 环 ， 用 户 可 自 定义 功能 。 

因此 ,与 其 说 R 是 一 种 统计 软件 ， 还 不 如 说 R 是 一 种 数学 计算 的 环境 。 因 为 R 并 不 是 仅仅 提供 若干 统计 程序 ， 用 户 只 需 指 定数 据 库 ， 并 指定 铬 干 参数 ， 便 可 开始 做 统计 分 析 。 


R 在 提供 一 部 分 统计 工具 的 同时 ， 还 提供 了 各 种 数学 计算 、 统 计 计算 的 函数 ， 从 而 让 用 户 能 按照 自己 的 需求 来 做 数据 分 析 ， 也 可 以 开发 符合 需要 的 统计 计算 方法 。R 内 置 了 多 种 统计 学 及 数字 分 析 功 能 。 
R 语 言 的 功能 也 可 以 透 过 安装 套件 (Packages， 用 户 撰写 的 功能 ) 来 增强 。 增 加 的 功能 有 特殊 的 统计 技术 、 绘 图 功能 ， 以 及 编程 界面 和 数据 输出 /输入 功能 。 这 些 软件 包 是 由 R 语 言 、LaTeX、Java 及 最 常用 C 
语言 或 Fortran 语 言 开 发 的 。 下 载 的 版 本 会 包含 一 批 核心 功能 的 软件 包 ， 而 根据 CRAN (The Comprehensive R Archive Network) 统计 ， 这 些 软件 包 超过 了 一 干 种 。 其 中 有 几 款 较为 常用 ， 如 用 于 经 济 计 
量 、 财 经 分 析 、 人 文科 学 研究 以 及 人 工 智能 。 因 为 与 语言 的 天 生 血 缘 关 系 ，R 比 其 他 统计 学 或 数学 专用 的 编程 语言 具有 更 强 的 面向 对 象 程序 设计 功能 。 此 外 虽然 R 语 言 是 主要 用 于 统计 分 析 或 者 开发 统计 相 
关 的 软件 ， 但 也 有 人 用 作 和 矩阵 计算 。 其 分 析 速 度 可 与 GNU Octave 乃 至 商业 软件 MATLAB 相 媲美 。 


R 语 言 的 语法 与 C 语 言 有 些 类 似 ,但 在 语义 上 是 消 数 设计 语言 的 (functional progr-am-ming language) 的 变种 并 且 和 Lisp 以 及 APL 有 很 强 的 兼容 性 。 特 别 的 是 ， 它 允许 在 “语言 上 计 
(computing on the language) 。 这 使 得 它 可 以 把 表达 式 作为 函数 的 输入 参数 ， 而 这 种 做 法 对 统计 模拟 和 绘图 非常 有 用 。 


二 


同时 ，R 是 一 个 免费 的 自由 软件 ， 对 于 目前 主流 的 平台 都 可 以 免费 下 载 和 使 用 。R 的 主要 网 站 是 http://www.r-project.org， 在 这 里 可 以 下 载 R 的 安装 程序 和 源 代 码 ， 及 各 种 外 挂 程 序 和 文档 。 


1) 统计 计算 (R 的 强项 ) 。 

2) 机 器 学 习 。 

3) 高 性 能 计算 (向 量化 与 并 行 /分 布 式 计算 ) 。 
4) 和 矩阵 运算 。 


5) 编写 接口 与 工具 包 。 


6.3.2 SparkR 简 介 


‘J 一 


SparkR 是 一 个 R 语 言 包 ， 它 提供 了 轻 量 级 的 前 端 方式 ， 让 用 户 可 以 在 R 语 言 中 使 用 Apache Spark。 简 而 言 之 ，SparkR 在 Spark 之 上 提供 了 R 语 言 的 API 和 运行 时 支持 。 在 Spark 1.5.0 中 ，SparkR 实 现 了 
分 布 式 的 DataFrame， 支 持 类 似 查 询 、 过 滤 以 及 聚合 等 操作 (类 似 于 R 中 的 data frames: dplyr) ， 但 是 SparkR 中 的 DataFrame 操 作 支 持 大 规模 分 布 式 数据 集 。SparkR 同 时 也 通过 MLlib 库 支持 机 器 学 习 。 


DataFrame 是 指数 据 被 组 织 为 一 个 带 有 列 名 称 的 分 布 式 数据 集 ， 在 形式 上 类 似 于 关系 型 数据 库 中 的 表 ， 也 和 Ri 语言 中 的 data frame 类 似 。 但 是 SparkR 中 的 DataFrame 提 供 了 很 多 优化 措施 ， 构 造 
DataFrame 的 方式 也 很 多 : 可 以 在 结构 化 的 文件 中 构造 ， 可 以 通过 Hive 中 的 表 构造 ， 还 可 以 通过 外 部 数据 库 构 造 或 者 是 通过 现 有 R 的 data frame 来 构造 。 


与 前 面 几 节 类 似 ， 细 心 的 读者 也 许 早 已 预料 到 对 于 SparkR 而 言 ， 其 使 用 入 口 也 离 不 开 SparkContext。SparkContext 将 用 户 开发 的 R 程 序 与 Spark 集 群 连接 到 了 一 起 。 创 建 SparkContext 的 方式 是 使 用 
sparkR.init 方 法 ， 同 时 可 以 传 入 参数 ， 如 应 用 程序 名 、 依 赖 的 Spark 的 包 等 。 再 者 ， 为 了 操作 DataFrame， 需 要 先 创建 SQLContext， 而 SQLContext 也 是 通过 SparkContext 来 创建 的 。 如 果 用 户 使 用 的 是 
SparkR shell， 那 么 系统 会 自动 为 用 户 创建 SparkContext 和 SQLContext。 关 于 创建 SparkContext 与 SQLContext， 请 读者 阅读 代码 清单 6-15。 


代码 清单 6-15 ”创建 SparkContext 和 SQLContext 


SC <- sparkR.init() 
sqlContext <- SparkRSQL .init (sc) 


6.3.3 ”DataFrame 创 建 


在 创建 SQLContext 之 后 ， 可 以 通过 如 下 几 种 途径 来 进一步 创建 DataFrame: 
1. 从 本 地 的 R data frame 创 建 


创建 DataFrames 最 简单 的 方式 是 将 R 的 data frame 转 换 成 SparkR DataFrame。 具 体 而 言 ， 可 以 使 用 createDataFrame 方 法 来 创建 ， 并 传 入 本 地 R 的 data frame 来 创建 SparkR 的 DataFrames。 代 码 清 
单 6-16 使 用 了 R 的 faithful 数 据 集 来 创建 DataFrame。 


代码 清单 6-16 ”使 用 R 的 faithful 数 据 集 创建 DataFrame 


DataFrame 
df <- _ createDataFrame (sqlContext, faithful) 
































# 将 DataFrame 中 的 内 容 输 出 到 标准 输出 
head (df) 














## eruptions waiting 
间 #1 3.600 79 
##2 1.800 54 
大 #3 3333 74 
2. 从 数据 源 创 建 


利用 DataFrame 接 口 ，Spark R 能 够 支持 操作 多 种 数据 源 。 下 面 将 介绍 如 何 通 过 Data Sources 提 供 的 党 用 方法 来 加 载 和 保存 数据 。 读 者 若 想 了 解 更 多 的 选项 ， 可 以 自行 参阅 Spark 官 网 上 的 Spark SQL 
编程 指南 。 


在 Data Sources 中 创建 DataFrames 的 常用 方法 是 使 用 read.df。 该 方法 需要 传 入 SQLContext、 需 要 加 载 的 文件 路 径 以 及 数据 源 的 类 型 。SparkR 内 置 支持 读 取 JSON 和 和 Parquet 文 件 ， 而 且 通 过 Spark 
Packages， 可 以 使 用 数据 源 连 接 器 来 读 取 常 见 类 型 的 数据 ， 如 CSV 和 Avro 文件 。 这 些 包 既 可 以 在 submit 时 通过 参数 “--packages” 指定 ， 也 可 以 使 用 SparkR 命 令 。 如 果 通 过 init 方 法 创建 SparkContext， 
那么 可 以 通过 包 的 参数 来 指定 包 。 如 代码 清单 6-17 所 示 。 


代码 清单 6-17 通过 init 方 法 创建 SparkContext 


SC <- sparkR.init (sparkPackages="com.databricks:spark-csv 2.11:1.0.3") 
sqlContext <- SparkRSQL .init (sc) 





下 面 学 习 如 何 使 用 数据 源 Data Source (该 数据 源 使 用 了 JSON 样 例 作 为 输入 文件 ) 。 注 意 这 里 使 用 的 JSON 文 件 不 是 典型 的 JSON 文 件 。 该 文件 中 的 每 行 必须 包含 一 个 独立 的 、 自 包含 合法 的 JSON 对 
象 。 因 此 ， 一 个 常规 的 多 行 JSON 文 件 通常 会 导致 失败 。 如 代码 清单 6-18 所 示 。 


代码 清单 6-18 使 用 数据 源 的 方法 (以 JSON 为 例 ) 





(sqlContext, "./examples/src/main/resources/people.json", "json") 





People <- read.d 
head (people) 








## age name 
##1 NA Michael 
##2 30 Andy 
##3 19 Justin 











# SparkR 自 动 从 JSON 文 件 推测 schema 











printSchema (people) 








# root 
# |-- age: integer (nullable = true) 
# |-- name: string (nullable = true) 




















Data Source 的 APl 也 被 用 来 以 多 种 文件 格式 的 方式 保存 DataFrames。 例 如 ， 使 用 write.df 方 法 ， 可 以 将 前 一 个 例子 中 的 DataFrame 保 存 为 一 个 parquet 文 件 。 


代码 清单 6-19 ”使 用 write.df 方 法 保存 DataFrame 数 据 





write.df (people, path="people.parquet", source="parquet", mode="overwrite") 





3. 从 Hive tables 创 建 


同 理 ， 也 可 以 通过 Hive 中 的 表 来 创建 DataFrame。 要 达到 这 个 目的 ， 只 需 创建 一 个 在 Hive MetaStore 中 能 访问 表 的 HiveContext 即 可 。 如 代码 清单 6-20 所 示 。 需 要 注意 的 是 ， 在 编译 Spark 时 ， 需 要 包 
含 对 Hive 的 支持 。 对 于 SQLContext 和 HiveContext 的 区 别 ， 读 者 可 以 参考 Spark 官 网 上 的 SQL 编程 指南 文档 。 


代码 清单 6-20 从 Hive 中 创建 DataFrame 


# sc 是 已 有 的 SparkContext 


hiveContext <- sparkRHive.init (sc) 

















sql (hiveContext, "CREATE TABLE IE NOT EXISTS src (key INT, value STRING)") 
Sql (hiveContext, "LOAD DATA LOCAL INPATH ‘examples/src/main/resources/Kv1 .txt' INTO TABLE src") 


# HiveQI 形 式 的 查询 
results <- sql (hiveContext, "FROM src SELECT key, value") 





































































































# 结果 是 一 个 DataFrame 
head (results) 

## key value 

振 1 238 val 238 

## 2 86 val 86 

## 3 311 val 311 








6.3.4 ”DataFrame 操 作 


SparkR DataFrames 支 持 一 系列 方法 ， 用 于 结构 化 的 数据 处 理 。 下 面 列举 一 些 基 本 的 例子 ， 对 于 细节 部 分 ， 请 读者 参考 Spark 官 网 的 API| 文 档 。 
1. 选 择 行 和 列 


代码 清单 6-21 ”结构 化 数据 处 理 部 分 代码 





# 创建 DataFrame 
df <- createDataFrame (sqlContext, faithful) 























# 获取 DataFrame 的 基本 信息 





## DataFrame [eruptions:double, waiting:doublel] 


# 选择 "eruptions" 列 
head (select (df, df$eruptions)) 
## eruptions 

















间 #1 3.600 
##2 1.800 
### 3 35333 


# 列 名 可 作为 字符 串 传递 


head (select (df, "eruptions")) 





# 过 滤 ， 保 留 符合 条 件 的 行 (waiting 小 于 50) 
head (filter (df, df$waiting < 50)) 
## eruptions waiting 


























间 #1 1 750 47 
##2 L320 47 
### 3 1.867 48 





2. 分 组 (Grouping) 和 聚集 (Aggregation ) 
SparkR DataFrame 同 时 也 支持 一 系列 通用 的 方法 ， 用 于 grouping 之 后 的 数据 聚集 操作 (Aggregation) 。 例 如 ， 可 以 针对 faithfu| 数 据 集中 的 waiting time 计 算 柱状 图 ， 
详 见 代 码 清单 6-22。 


代码 清单 6-22 ”计算 柱状 图 








# 使 用 'n' 运 算 符 来 统计 每 次 waiting time 出 现时 的 times 数 量 
head (summarize (groupBy (df, df$waiting), count = n(df$waiting))) 

## waiting count 

非 #1 81 |3 

井 划 2 60 6 

井 ##3 68 工 

# 对 聚集 输出 排序 ， 获 取 最 常见 的 waiting times 

waiting counts <- summarize (groupBy (df, df$waiting), count = n(df$waiting)) 
head (arrange (waiting counts, desc(waiting CountsScount) ) ) 















































## waiting count 





## 78 15 
##2 83 14 
##3 81 -13 
3. 列 操作 


sparkR 提 供 了 能 够 应 用 于 列 的 方法 操作 ， 用 于 数据 处 理 或 者 聚集 时 。 代 码 清单 6-23 展 示 了 基本 数学 方法 的 使 用 。 
代码 清单 6-23 ”基本 数学 方法 的 使 用 


# 将 waiting time 格 式 转化 成 秒 

# 注意 ， 可 以 将 waiting time 赋 给 同一 个 DataFrame 中 的 一 个 新 列 
df$waiting secs <- df$waiting * 60 

head(gdf) 
## eruptions waiting waiting secs 












































##1 3.600 79 740 
##2 1.800 54 3240 
##3 3.333 74 440 
4.SparkR 执 行 SQL 查 询 


SparkR DataFrame 还 可 以 被 注册 为 SparkSQL 中 的 临时 表 。 将 一 个 DataFrame 注 册 为 表 后 ， 用 户 可 以 对 这 些 数据 执行 SQL 查 询 。sql 函 数 使 得 应 用 能 够 以 编程 的 方式 执行 SQL 查 询 ， 并 以 DataFrame 的 
方式 返回 结果 。 如 代码 清单 6-24 所 示 。 


代码 清单 6-24 ”注册 临时 表 以 及 对 该 表 执 行 SQL 查 询 示 例 


# 读 取 JSON 文 件 
People <- read.di 


(sgqlContext, "./examples/src/main/resources/people.json", "json") 














# 将 DataFrame 注 册 为 table 
registerTempTable (people, "people") 





























# 用 sql 函 数 运 行 SQL 语句 

teenagers <- sql (sqlContext, "SELECT name FROM People WHERE age >= 13 AND age <= 19") 
head (teenagers) 

闪 # name 

##1 Justin 


























5. 机 器 学 习 中 的 应 用 


通过 调用 glm () 方法 ，SparkR 人 允许 在 DataFrames 上 拟 合 广 义 线性 模型 (generalized linear models) 。 在 后 台 ，SparkR 使 用 MLlib 来 训练 指定 family 的 模型 。 目 前 支持 高 斯 和 贝 叶 斯 family。 
SparkR 支 持 一 部 分 R 中 用 于 模型 拟 合 的 公式 运算 竺 , 包括 “~”、“.”、“+” 和 “-”。 代 码 清单 6-25 演 示 了 使 用 SparkR 构 建 一 个 高 斯 GLM 模 型 的 过 程 ( 注 : 本 书 会 在 下 节 详 细 讲 解 Spark 生 态 中 的 机 器 学 


习 部 分 ) 。 


代码 清单 6-25 ”构建 高 斯 GLM 模 型 的 过 程 





# 创建 DataFrame 
df <- createDataFrame (sqlContext, iris) 


# 在 数据 集 之 上 ， 拟 合 线性 模型 
model <- glm(Sepal Length ~ Sepal Width + Species, data = df, family = "gaussian") 


# 模型 系数 以 一 种 类 似 格式 被 返回 给 R 的 本 地 glm() 
summary (model) 
##Scoefficients 


















































非 # Estimate 
## (Intercept) 2.2513930 
##Sepal Wiqdtn 0.8035609 





##Species versicolor 1.4587432 
##Species virginica 1.9468169 


# 基于 模型 的 预测 
predictions <- predict (model, newData = df) 
head (select (predictions, "Sepal Length", "prediction")) 
## Sepal Length prediction 


















































##1 el 5.063856 
间 #2 “9 -662076 
### 3 4.7 4.822788 
间 #4 6 .142432 
##5 S30 5.144212 
### 6 D.4 5.385281] 





6.4 MLlib on Spark 


机 器 学 习 (machine learning) 是 一 门 研究 机 器 获取 新 知识 和 新 技能 ， 并 识别 现 有 知识 的 学 科 。 机 器 学 习 是 人 工 智能 领域 的 分 支 ， 而 体现 “人 工 智 能 ”的 最 基本 的 特征 便 是 自我 学 习 能 力 。 机 器 学 习作 
为 提高 机 器 智能 的 重要 手段 ， 得 到 了 各 个 行业 研究 者 的 广泛 关注 ， 成 为 人 工 智能 领域 的 研究 核心 之 一 。 同 时 ， 机 器 学 习 在 认 知 科学 、 心 理学 、 教 育 学 、 哲 学 以 及 其 他 相关 领域 中 受到 广泛 关注 。 


本 章 首先 概要 性 地 介绍 机 器 学 习 的 基本 知识 体系 ， 随 后 介绍 若干 种 典型 的 机 器 学 习 模 型 和 算法 ， 接 着 深入 介绍 Spark 上 的 机 器 学 习 库 MLlib (Machine Learning Library) ， 最 后 给 出 示例 。 


6.4.1 机 器 学 习 概述 


目前 ， 不 同学 派对 机 器 学 习 的 定义 存在 差异 。 某 位 从 事 机 器 学 习 研 究 的 科学 家 曾 说 : “ 令 W 是 这 个 给 定 世 界 的 有 限 或 无 限 所 有 对 象 的 集合 ， 由 于 我 们 观察 能 力 的 限制 ， 我 们 只 能 获得 这 个 世界 的 一 个 有 
限 的 子 集 QEW。 机 器 学 习 的 任务 就 是 根据 这 个 世界 的 对 象 子 集 Q， 计 算 这 个 世界 的 统计 分 布 。 这 样 ， 在 统计 意义 下 ， 这 个 分 布 对 这 个 世界 的 绝 大 多 数 对 象 是 正确 的 。 这 就 是 这 个 世界 的 一 个 模型 。 ”事实 
上 ， 人 类 通常 认识 世界 的 方法 就 是 通过 有 限 的 特征 去 猜测 和 拟 合 由 无 限 维特 征 构成 的 真实 世界 。 因 此 上 述 摘 述 相对 于 机 器 学 习 的 范畴 似乎 大 大 了 一 些 。 不 过 究 其 本 质 ， 机 器 学 习 其 实 就 是 人 类 研究 世界 、 认 
识 世界 的 方法 得 到 机 器 更 强 的 计算 和 存储 能 力 扩展 后 的 延伸 。 

机 器 学 习 的 研究 大 致 分 为 如 下 几 个 发 展 阶段 。 

1. 通 用 的 学 习 系统 研 究 阶段 

这 一 阶段 可 以 追溯 到 20 世 纪 50 年 代 ， 当 时 人 工 智能 的 研究 侧重 于 符号 和 方法 的 研究 ， 而 机 器 学 习 却 致力 于 构造 一 个 没有 或 者 只 有 很 少 初始 知识 的 通用 系统 ， 这 种 系统 应 用 的 主要 技术 有 神经 元 模型 、 决 
策 论 和 控制 论 。 

由 于 当时 信息 技术 落后 的 缘故 ， 研 究 主 要 停留 在 理论 探索 和 构造 专用 的 实验 硬件 系统 阶段 。 这 种 系统 以 神经 元 模型 为 基础 ， 只 带 有 随机 的 或 部 分 随机 的 初始 结构 ， 然 后 给 它 一 组 刺激 、 一 个 反馈 源 和 修 
改 自 身 组 织 的 足够 自由 度 ， 使 系统 有 可 能 自 适 应 地 趋向 最 优化 组 织 。 这 种 系统 的 代表 是 被 称 为 感知 器 的 神经 网 络 。 系 统 的 学 习 主要 靠 神 经 元 在 传递 信号 的 过 程 中 ， 所 反映 的 概率 上 的 渐进 变化 来 实现 。 同 时 
也 有 人 开发 了 应 用 符号 逻辑 来 模拟 神经 元 系统 的 工作 ， 如 McCulloch 和 Pitts 用 离散 决策 元 件 模拟 神经 元 的 理论 。 相 关 的 工作 包括 进化 过 程 的 仿真 ， 即 通过 随机 演变 和 “自然 ”选择 来 创造 智能 系统 ， 如 
R.M.Friedberg 的 进化 过 程 模拟 系统 。 这 方面 的 研究 形成 了 人 工 智能 的 一 个 新 分 支 一 模式 识别 ， 并 创立 了 学 习 的 决策 论 方法 。 这 个 方法 的 学 习 含义 是 从 给 定 的 例子 集中 ， 获 取 一 个 线性 的 、 多 项 式 的 或 相关 


的 识别 消 数 。 





神经 元 模型 的 研究 未 取得 实质 性 进展 ， 并 在 20 世 纪 60 年 代 末 走 入 低谷 。 而 作为 对 照 ， 一 种 最 简单 、 最 原始 的 学 习 方 法 一 一 机 械 学 习 ， 却 取得 了 显著 的 成 功 。 该 方法 通过 记忆 和 评价 外 部 环境 提供 的 信息 
来 达到 学 习 的 目的 。 采 用 该 方法 的 代表 性 成 果 是 A.L.samuel 于 20 世 纪 50 年 代 未 设计 的 跳棋 程序 ， 随 着 使 用 次 数 的 增加 ， 该 程序 会 积累 性 记忆 有 价值 的 信息 ， 可 以 达到 大 师 级 水 平 。 正 是 机 械 学 习 的 成 功 激励 
了 研究 者 们 继续 进行 机 器 学 习 的 探索 性 研究 。 


2. 基 于 符号 表示 的 概念 学 习 系统 研究 阶段 


从 20 世 纪 60 年 代 中 叶 开始 ， 机 器 学 习 转 入 了 第 二 个 阶段 的 研究 一 一 即 基于 符号 表示 的 概念 学 习 系 统 研究 阶段 。 当 时 ， 人 工 智 能 的 研究 重点 已 转 到 符号 系统 和 基于 知识 的 方法 研究 。 如 果 说 第 一 时 期 的 研 
究 是 用 数值 和 统计 方法 的 话 ， 这 一 时 期 的 研究 则 综合 了 逻辑 和 图 结构 的 表示 。 研 究 的 目标 是 表示 高 级 知识 的 符号 描述 及 获取 概念 的 结构 假设 。 这 时 期 的 工作 主要 有 概念 获取 和 各 种 模式 识别 系统 的 应 用 。 其 
中 ， 最 有 影响 的 开发 工作 当 属 Winston 的 基于 示例 归纳 的 结构 化 概念 学 习 系 统 。 受 其 影响 ， 人 们 研究 了 从 例子 中 学 习 结 构 化 概念 的 各 种 方法 。 也 有 部 分 研究 者 构造 了 面向 任务 的 专用 系统 ， 这 些 系统 旨 在 获 
取 特 定 问题 求解 任务 中 的 上 下 文 知 识 ， 代 表 性 工作 有 Hunt 和 C.l.Hovland 的 CLS 和 B.G.Buchanan 等 的 META-DENDRAL， 后 者 可 以 自动 生成 规则 来 解释 DENDRAL 系 统 中 所 用 的 质谱 数据 。 在 这 个 阶段 ， 机 
器 学 习 的 研究 者 们 已 意识 到 应 用 知识 来 指导 学 习 的 重要 性 ， 并 且 开 始 将 领域 知识 编 入 学 习 系 统 ， 如 META-DENDRAL 和 D.B.Lenat 的 AM 等 。 





3. 基 于 知识 的 各 种 学 习 系 统 研 究 阶段 


该 阶段 起 始 于 20 世 纪 70 年 代 中 期 ， 注 重 基 于 知识 的 学 习 系 统 研究 。 人 们 不 再 局 限于 构造 概念 学 习 系 统 和 获取 上 下 文 知识 ， 同 时 结合 了 问题 求解 中 的 学 习 、 概 念 聚 类 、 类 比 推理 及 机 器 发 现 的 工作 。 一 些 
成 熟 的 方法 开始 用 于 辅助 构造 专家 系统 ， 并 不 断 地 开发 新 的 学 习 方法 ， 使 机 器 学 习 达 到 一 个 新 的 时 期 。 这 时 期 的 工作 特点 主要 有 三 个 方面 : 


1) 基于 知识 的 方法 : 着 重 强调 应 用 面向 任务 的 知识 和 指导 学 习 过 程 的 约束 。 从 早先 的 无 知识 学 习 系 统 的 失败 中 吸取 的 教训 就 是 : 为 获取 新 的 知识 ， 系 统 必须 事先 具备 大 量 的 初始 知识 。 
2) 开发 各 种 各 样 的 学 习 方 法 ， 除 了 早先 从 例子 中 学 习 外 ， 各 种 有 关 的 学 习 策略 相继 出 现 ， 如 示 教 学 习 、 观 察 和 发 现 学 习 ， 同 时 出 现 了 如 类 比 学 习 和 基于 解释 的 学 习 等 方法 。 

3) 结合 生成 和 选择 学 习 任务 的 能 力 : 应 用 启发 式 知 识 于 学 习 任务 的 生成 和 选择 ， 包 括 提出 收集 数据 的 方式 、 选 择 要 获取 的 概念 与 控制 系统 的 注意 力 等 。 

4. 联 结 学 习 和 符号 学 习 的 深入 研究 


这 个 阶段 开始 于 20 世 纪 80 年 代 后 期 ， 联 结 学 习 和 符号 学 习 的 深入 研究 导致 机 器 学 习 领 域 极 大 繁荣 。 首 先 ， 神 经 网 络 的 研究 重新 迅速 崛起 ， 并 在 声音 识别 、 图 像 处 理 等 诸多 领域 得 到 很 大 成 功 。 一 批 在 机 
器 学 习 第 一 时 期 中 从 事 研 究 的 学 者 ， 经 过 坚持 不 懈 的 努力 ， 发 现 了 用 隐 含 层 神经 元 来 计算 和 学 习 非 线性 函数 的 方法 ， 克 服 了 早期 神经 元 模型 的 局 限 性 。 计 算 机 硬件 技术 的 高 速 发 展 也 为 开发 大 规模 和 高 性 能 
的 人 工 神经 网 络 扫 清 了 障碍 ， 使 得 基于 人 工 神 经 网 络 的 联结 学 习 (connectionist learning) 从 低谷 走出 ， 发 展 迅猛 ， 并 向 传统 的 基于 符号 的 学 习 提出 了 挑战 。 


同时 ， 符 号 学 习 已 经 历 了 30 多 年 的 发 展 历程 ， 各 种 方法 日 臻 完善， 出 现 了 应 用 技术 造 勃 发 展 的 景象 。 最 突出 的 成 就 有 分 析 学 习 (特别 是 解释 学 习 ) 的 发 展 、 遗 传 算法 的 成 功 和 加 强 学 习 方 法 的 广泛 应 
用 。 尤 其 是 近 几 年 来 ， 随 着 计算 机 网 络 和 分 布 式 计算 框架 的 发 展 ， 基 于 网 络 的 各 种 自 适 应 、 具 有 学 习 功 能 的 软件 系统 的 诞生 将 机 器 学 习 的 研究 推 向 新 的 高 度 ， 分 布 式 计 算 平台 已 成 为 人 工 智能 和 机 器 学 习 的 
重要 手段 和 条 件 。 


6.4.2 ”机 器 学 习 的 研究 方向 与 问题 

在 机 器 学 习 领 域 ， 监 督学 习 (supervised learning) 、 非 监督 学 习 (unsupervised learning) 、 半 监督 学 习 (semi-supervised learning) 和 强化 学 习 (reinforcement learning) 四 类 研究 比较 多 ， 
应 用 比较 广 的 学 习 技 术 ， 下 面 对 这 四 个 概念 介绍 如 下 : 

1) 监督 学 习 : 通过 已 有 的 一 部 分 输入 数据 与 输出 数据 之 间 的 对 应 关系 ， 生 成 一 个 函数 ， 将 输入 映射 到 合适 的 输出 ， 如 分 类 ， 目 标 是 让 计算 机 学 习 我 们 已 经 创建 好 的 分 类 系统 。 

2) 非 监督 学 习 : 不 告诉 计算 机 怎么 做 ,而 是 让 机 器 自己 去 学 习 怎 样 做 一 些 事情 。 

3) 半 监 督学 习 : 综合 利用 有 类 标的 数据 和 没有 类 标的 数据 ， 来 生成 合适 的 分 类 遂 数 。 

4) 强化 学 习 : 输出 标签 不 是 直接 的 对 /不 对 ， 而 是 一 种 类 似 训练 宠物 的 奖惩 机 制 。 


读者 对 上 述 概念 的 理解 也 许 并 不 清晰 。 下 面 举 例 来 说 明 上 述 定义 。 事 实 上 很 多 机 器 学 习 算 法 都 是 在 解决 类 别 归 属 的 问题 ， 即 给 定 一 些 数据 ， 判 断 每 条 数据 属于 哪些 类 ， 或 者 和 其 他 哪些 数据 属于 同一 


类 ， 等 等 。 这 样 ， 如 果 我 们 直接 就 对 这 一 堆 数 据 进行 某 种 划分 ( 聚 类 ) ， 通 过 数据 内 在 的 一 些 属性 和 联系 ， 将 数据 自动 整理 为 某 几 类 ， 这 就 属于 非 监 督学 习 。 如 果 我 们 一 开始 就 知道 了 这 些 数据 包含 的 类 
别 ， 并 且 有 一 部 分 数据 (训练 数据 ) 已 经 标 上 了 类 标 ， 通 过 对 这 些 已 经 标 好 类 标的 数据 进行 归纳 总 结 ， 得 出 一 个 “数据 一 类 别 ” 的 映射 函数 ， 来 对 剩余 的 数据 进行 分 类 ， 这 就 属于 监督 学 习 。 而 半 监 督学 习 


是 指 在 训练 数据 十 分 稀少 的 情况 下 ， 通 过 利用 一 些 没 有 类 标的 数据 ， 提 高 学 习 准 确 率 的 方法 。 强 化 学 习 类 似 训练 宠物 ， 训 练 者 无 法 直接 告诉 它 ， 做 出 某 个 手势 时 想 要 它 做 什么 ， 或 者 它 的 反应 是 对 是 错 。 但 
是 可 以 通过 做 对 了 奖励 吃 的 ， 做 错 了 就 惩罚 它 的 ”奖惩 方法 ”训练 。 昌 然 它 还 是 无 法 和 人 直接 沟通 ， 不 明白 手势 含义 ， 但 是 渐渐 使 寡 物 能 对 手势 做 出 正确 反应 。 


有 些 时 候 ， 有 类 标的 数据 比较 稀少 ， 而 没有 类 标的 数据 是 相当 丰富 的 ， 但 是 对 数据 进行 人 工 标注 又 非常 昂贵 ， 这 时 候 ， 学 习 算 法 可 以 主动 提出 一 些 标注 请 求 ， 将 一 些 经 过 筛选 的 数据 提交 给 专家 进行 标 
注 ， 这 种 学 习 方 法 被 称 为 主动 学 习 (active learning) 。 主 动 学 习 的 过 程 用 集合 大 致 描述 为 : 有 一 个 已 经 标 好 类 标的 数据 集 K (初始 时 可 能 为 空 ) 和 还 没有 标记 的 数据 集 U， 通 过 K 集 合 的 信息 ， 找 出 一 个 U 
的 子 集 C， 提 出 标注 请 求 ， 待 专家 将 数据 集 C 标 注 完 成 后 加 入 K 和 集合 中 ， 进 行 下 一 次 迭代 。 


从 定义 来 看 ， 主 动 学 习 也 属于 半 监 督学 习 的 范畴 ， 但 实际 上 是 不 同 的 。 半 监督 学 习 和 主动 学 习 都 属于 利用 未 标记 数据 的 学 习 技 术 ， 但 其 基本 思想 还 是 有 区 别 的 。 如 上 所 述 ， 主 动 学 习 的 “主动 ”， 指 的 
是 主动 提出 标注 请 求 ， 也 就 是 说 ， 还 是 需要 一 个 外 在 的 能 够 对 其 请 求 进行 标注 的 实体 (通常 就 是 相关 领域 人 员 ) ， 即 主动 学 习 是 交互 进行 的 。 而 半 监 督学 习 特 指 学 习 算 法 不 需要 人 工 干 预 ， 基 于 自身 对 未 标 
记 数 据 加 以 利用 。 


机 器 学 习 研 究 的 问题 大 体 可 以 归 为 三 类 : 分 类 、 回 归 、 聚 类 。 不 难看 出 ， 这 几 类 途径 也 是 人 类 认识 世界 常见 方式 。 下 面 分 别 介绍 如 下 。 


1) 分 类 的 概念 很 容易 理解 例如 ， 在 我 们 熟知 的 生物 学 中 ， 通 党 把 生物 分 为 动物 、 植 物 、 微 生物 ， 动 物 之 下 又 分 背 椎 动物 和 无 脊椎 动物 ， 背 椎 动物 又 可 以 分 为 哺乳 动物 、 乌 类 、 怜 行动 物 、 两 栖 类 、 鱼 
类 ， 等 等 。 通 过 一 层 层 的 划分 ， 将 拥有 更 多 共性 的 对 象 放 到 一 起 成 为 一 类 ， 可 以 方便 知识 的 积累 和 研究 的 深入 。 而 在 机 器 学 习 上 所 说 的 分 类 问题 ， 与 平时 说 的 分 类 问题 类 似 ， 就 是 将 一 个 对 象 分 入 事先 划分 
好 的 类 别 中 。 比 如 对 一 个 新 的 物种 ， 判 断 它 是 属于 动物 还 是 植物 ， 这 就 可 以 算 一 个 机 器 学 习 上 的 分 类 问题 。 


2) 回归 则 是 数学 上 的 一 个 概念 ， 学 过 统计 学 的 读者 应 该 都 接触 过 。 简 单 而 言 ， 回 归 主 要 是 确定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定量 关系 的 一 种 统计 方法 。 最 简单 的 就 是 以 前 书本 上 的 一 元 线性 函数 回 
归 分 析 : 已 知 y=ax+b， 并 且 知 道 一 系列 的 样本 点 (六 儿 ” 六) .要求 通过 这 些 样本 点 推出 a 和 b 的 值 ， 从 而 得 到 y 根 据 x 变 化 的 规律 。 回 归 分 析 的 特点 是 需要 事先 知道 变量 服从 哪 一 种 大 致 规律 (比如 一 元 线 
性 函数 、 一 元 二 次 六 数 、 多 元 一 次 函数 等 ) ， 如 果 这 个 大 致 的 规律 没有 猜 对 ， 之 后 无 论 用 什么 方法 对 参数 进行 拟 合 ， 都 不 会 得 到 合适 的 结果 。 


3) 聚 类 是 将 物理 或 抽象 对 象 的 集合 分 成 由 类 似 的 对 象 组 成 的 多 个 类 的 过 程 ， 从 这 个 角度 讲 ， 它 有 点 像 分 类 。 但 它 和 分 类 不 同 的 地 方 在 于 ,分 类 是 已 经 事先 有 了 分 好 的 类 别 ， 这 就 意味 着 这 些 类 别 也 已 经 
有 大 量 已 知 的 特征 去 刻画 。 聚 类 则 是 事先 不 知道 这 些 分 类 的 特征 ， 只 拿 到 一 堆 混杂 的 样本 ， 利 用 这 些 样本 之 间 的 关系 ， 自 动 划分 出 几 个 类 别 。 然 后 如 果 有 需要 ， 可 能 会 再 对 这 些 类 别 进行 分 析 ， 对 于 稳定 的 
聚 类 的 结果 可 以 作为 之 后 分 类 方法 的 输入 。 类 似 于 一 杯 水 里 混合 了 许多 互 不 相 溶 的 液体 ， 这 时 可 以 用 滤纸 、 分 液 法 等 方法 对 里 面 的 液体 进行 分 离 ， 但 是 在 分 离 之 前 ， 你 并 不 知道 最 后 会 分 出 几 种 液体 ， 分 出 
的 液体 应 该 是 什么 样 的 你 也 不 会 知道 。 但 是 聚 类 之 后 的 结果 ， 你 可 以 再 进行 研究 ， 去 定义 这 些 新 的 分 类 。 


机 器 学 习 的 大 部 分 问题 都 可 以 归结 到 这 三 类 问题 中 ， 比 如 排序 问题 最 后 可 以 归结 到 分 类 上 。 而 分 类 、 回 归 、 聚 类 的 方法 之 间 也 不 存在 排他 的 界限 ， 比 如 回归 的 结果 可 以 作为 分 类 的 依据 。 聚 类 的 方法 可 
以 作为 分 类 的 一 个 输入 。 


综 上 ， 机 器 学 习 方 法 是 计算 机 利用 已 有 的 数据 (可 以 称 为 经 验 ) ， 得 出 了 具有 某 种 规律 的 模型 ， 并 利用 此 模型 预测 未 来 的 一 种 方法 。 机 器 学 习 与 人 类 思考 的 经 验 过 程 是 类 似 的 ， 不 过 它 能 考虑 更 多 的 情 


况 ， 执 行 更 加 复杂 的 计算 。 事 实 上 ， 机 器 学 习 的 一 个 主要 目的 就 是 把 人 类 思考 归纳 经 验 的 过 程 转化 为 计算 机 通过 对 数据 的 处 理 计算 得 出 模型 的 过 程 。 经 过 计算 机 得 出 的 模型 能 够 以 近似 于 人 的 方式 解决 很 多 
灵活 复杂 的 问题 ， 图 6-13 为 机 器 学 习 与 人 脑 学 习 的 相似 性 。 

另外 从 学 科 性 质 上 来 说， 机 器 学 习 属 于 一 门 交 叉 学 科 ， 它 与 模式 识别 、 统 计 学 习 、 数 据 挖 气 、 计 算 机 视觉 、 语 音 识 别 、 自 然 语 言 处 理 等 领域 有 着 很 深 的 联系 。 从 范围 上 来 说 ， 机 器 学 习 跟 模式 识别 、 统 
计 学 习 、 数 据 挖掘 在 很 大 程度 上 是 类 似 的 。 同 时 ， 机 器 学 习 与 其 他 领域 的 处 理 技术 的 结合 ， 形 成 了 计算 机 视觉 、 语 音 识 别 、 自 然 语言 处 理 等 交叉 学 科 。 图 6-14 是 机 器 学 习 涉 及 的 一 些 相关 范围 的 学 科 与 研究 
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图 6-14 ”机 器 学 习 与 相关 学 科 


下 面 介绍 机 器 学 习 的 常见 算法 。 


6.4.3 ”机 器 学 习 的 弟 见 算法 
随 着 科技 的 发 展 ， 计 算 机 学 习 能 力 在 逐步 增强 。 尽 管 还 无 法 与 人 类 媲美 ， 然 而 对 于 一 些 特 定 任务 的 算法 已 经 实现 。 为 实际 应 用 开发 出 了 很 多 计算 机 程序 以 实现 计算 机 学 习 ， 同 时 商业 化 的 应 用 也 已 经 出 
现 ， 并 且 在 实践 中 证 明了 机 器 学 习 算法 优 于 其 他 算法 。 


下 面 先 介绍 关于 模型 评估 方面 的 知识 ; 随后 简单 介绍 一 些 常见 算法 ， 分 为 回归 、 分 类 、 聚 类 、 降 维和 特征 选择 ?类 ， 具 体 包括 lasso 回 归 、 决 策 树 、 贝 叶 斯 分 类 支持 向 量 机 等 。 


1. 模 型 评估 与 选择 


在 机 器 学 习 方 法 中 ， 用 于 调节 模型 参数 的 数据 集 为 训练 集 ， 对 训练 集 应 用 机 器 学 习 方法 ， 会 得 


会 得 到 表示 为 一 个 国 数 y (x) 的 结果 。 遂 数 y (x) 的 准确 形式 在 以 训练 集 为 基础 的 训练 过 程 中 就 已 经 确定 ， 这 
个 过 程 被 称 为 学 习 阶段 。 一 旦 模型 训练 出 来 就 能 预测 新 的 数据 。 这 些 新 的 数据 组 成 了 测试 集 。 正 确 预测 与 训练 集 不 同 的 新 样本 的 能 力 叫 作 泛 化 (generalization) 


我 们 希望 机 器 学 习 学 习 到 的 函数 y(x) 不 仅 对 训练 集 ， 而 且 对 测试 集 都 有 非常 好 的 预测 能 。 因 此 ， 我 们 希望 能 够 评估 模型 的 性 能 。 同 时 对 于 一 个 问题 ， 可 能 存在 许多 y (x) ， 这 时 需要 面临 模型 选择 的 


下 面 介 绍 模型 评估 选择 的 基本 知识 ， 以 及 评估 方法 和 性 能 指标 。 
(1) 误差 与 模型 选择 
在 开始 介绍 之 前 ， 先 介绍 两 个 非常 有 用 的 定理 : 


引 理 1 一 致 限 (the union bound) 令 4,4,,…, 4 为 k 个 不 同 的 事件 (不 一 定 相互 独立 ) ， 那 么 


P(A J4 J) )A) P(A) + + P(A4,) 


引 理 2 Hoeffding 不 等 式 (Hoeffding inequality) 令 2 2… 


(1) 


1 三 


"全 “为 随机 变 量 均值 ， 对 于 任意 Y>0 有 : 


P($-f|=7)< | (2) 
P(G-fl<7y) 1-2e "7" (3) 


引 理 ?2 说明， 假设 用 随机 变量 均值 4 去 估计 参数 9， 估计 参数 与 实际 参数 的 差 超过 一 个 特定 数值 的 概率 存在 上 确 界 ， 且 随 着 样本 量 m 的 增 大 


' “为 m 个 独立 同 分 布 的 随机 变量 ， 由 参数 为 的 伯 努 利 分 布 生 成 。 


，$ 江 近 q 的 概率 也 越 来 越 大 。 
因此 ， 得 到 机 器 学 习 的 很 重要 的 一 个 结论 : 考虑 简单 的 二 元 分 类 问题 ， 假 定 给 定 的 训练 集 Ste'， * “12… 


中 ， 且 各 训练 样本 a, “独立 同 分 布 ， 都 由 某 个 特定 分 布 生 成 。 对 于 某 个 假设 
定义 训练 误差 (training error， 也 称 为 经 验 风险 empricial risk 或 经 验 误差 empricial error) 为 : 


设 函 数 (hypothesis) ， 


8 月 = 一 》 TAO Dj (4) 
1 ;=1 


训练 误差 为 模型 在 训练 样本 中 误 分 类 的 比例 。 


接 下 来 ， 定 义 泛 化 误差 (generalization error) 。 


e(h)=P, ,5(h(x) zy) (5) 


这 里 得 到 的 是 一 个 概率 ， 表 示 通 过 特定 分 布 D 生 成 样本 (x，y) 中 的 y 与 通过 预测 函数 h (x) 生成 的 结果 不 同 的 概率 。 更 一 般 地 说 ， 我 们 把 学 习 器 预测 输出 和 样本 真实 输出 之 间 的 差异 称 为 误差 ， 模 型 在 
训练 集 上 的 误差 称 为 训练 误差 ， 在 新 样本 上 的 误差 称 为 泛 化 误差 。 


对 于 二 元 分 类 ， 调 整 假设 函数 20 =/10x > 0 中 的 6， 使 得 训练 误差 最 小 : 


0 = arg min E(/zo ) (6) 


上 式 为 经 验 风险 最 小 化 (Empirical Risk Mininmization，ERM) ， 其 = 中。 基于 ERM 的 算法 可 以 视 为 最 基本 的 学 习 算 法 ， 如 线性 回归 和 logistic 回 归 。 


在 机 器 学 习 中 ， 我 们 希望 选择 一 个 合适 的 ， 能 够 有 逼近 最 优 假设 遂 数 的 模型 。 但 


是 追求 训练 集 更 高 的 预测 能 力 ， 意 味 着 更 高 的 模型 复杂 
的 模型 包含 的 参数 过 多 ， 以 致 于 出 现 这 一 模型 对 已 知 数据 预测 得 很 好 ， 


型 复杂 度 。 这 种 现象 称 为 过 拟 合 (over-fitting) 。 
但 对 未 知 数据 预测 很 差 的 现象 。 换 名 话说， 模型 选择 的 目的 是 避免 过 拟 合并 提高 模型 的 预测 能 


过 拟 合 是 指 学 习 使 选择 


训练 误差 会 逐渐 降低 并 趋 于 0;， 而 测试 误差 会 先 减 小 再 增 大 。 当 选择 的 模型 复杂 度 过 大 时 ， 过 拟 合 的 现象 就 会 发 ， 如 图 6-15 所 示 。 所 以 在 学 习 时 ， 必 须 防 止 过 拟 合 ， 在 模型 选择 


当 模 型 复杂 度 增 大 时 ， 
复杂 预测 误差 。 下面 介绍 常用 的 模型 选择 方法 : 正则 化 和 交叉 验证 。 


* 度 的 模型 ， 以 达到 最 小 的 模型 


(2) 正则 化 和 交叉 验证 法 


正则 化 是 结构 风险 最 小 化 策略 的 实现 ， 是 在 经 验 风险 最 小 化 加 上 一 个 正则 化 项 (regularizer) 或 罚 项 (penalty term) 


0 = arg min é(h, )+47,0 (7) 
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图 6-15 ”训练 误差 和 测试 误差 与 模型 复杂 度 的 关系 


第 二 项 是 正则 化 项 ， 和 > 0 为 了 控制 两 个 不 同 目标 中 的 平衡 天 系 。 第 一 是 我 们 希望 模型 具有 较 小 的 预测 误差 ， 同 时 希望 参数 值 6 值 较 小 。 较 小 的 参数 值 意味 着 光滑 的 函数 ， 也 就 是 更 加 简单 的 函数 。 因 此 不 
易于 发 生 过 拟 合 现象 。 正 则 化 项 可 以 是 模型 参数 向 量 的 范 数 。 


另 一 种 常用 的 方法 是 交叉 验证 (cross validation) 。 交 叉 验证 本 质 上 是 重复 利用 数据 ， 切 分 给 定数 据 ， 将 切 分 后 的 数据 组 合 为 训练 集 和 测试 集 ， 并 反复 训练 、 测 试 ， 最 后 选择 合适 的 模型 。 
简单 交叉 验证 : 首先 随机 切 分 数据 集 为 两 部 分 ， 如 709% 训 练 集 和 30% 测 试 集 。 对 训练 集 进 行 各 种 训练 ， 接 下 来 在 测试 集 上 验证 各 个 模型 ， 选 择 泛 化 误差 最 小 的 那个 模型 。 


K 折 交叉 验证 : 先 将 数据 集 D 划 分 为 k 个 大 小 相似 的 互 斥 子 集 ， 也 就 是 20 20 2202200) 人 人 2 都 尽 可 能 地 保持 数据 分 布 的 一 致 性 ， 换 句 话 说 从 D 中 分 层 采 样 得 到 ， 然 后 每 次 用 k-1 个 子 集 的 
并 集 作 为 训练 集 ， 余 下 的 子 集 作为 测试 集 ， 这 样 可 以 得 到 k 组 训练 /测试 集 ， 从 而 可 进行 k 次 训练 和 测试 ， 最 终 返 回 的 是 这 k 个 测试 结果 的 均值 。 


(3) 性 能 指标 
在 使 用 机 器 学 习 算法 过 程 中 ， 针 对 不 同 任务 需要 不 同 的 评价 指标 ， 下 面 几 点 常用 的 指标 ， 包 括 三 类 常见 任务 ， 如 回归 、 分 类 和 聚 类 的 常用 评价 指标 。 
1) 回归 

回归 间 题 相对 比较 简单 ， 使 用 的 评价 指标 也 非常 直观 。 假 设 有 n 个 样本 ，yi 是 第 样本 的 真实 值 ， 是 第 i 个 样本 的 预测 值 。 


则 平均 绝对 误差 为 : 


| 、 I 、 
MAE(y, ) -之 .| 一 六 | (8) 
i=] 


平均 绝对 误差 (mean absolute error) 又 被 称 L1 为 范 数 损失 。 


~、 1] 、 
MSE(y, ?) pe, -了 ) (9) 
1=] 


平方 绝对 误差 (mean squared error) 又 称 为 L2 范 数 损失 。 


类 


另 


Var 一 髓 


explained variance (]),)) = ( 10 ) 


解释 变异 (explained variance) 是 根据 误差 的 方差 计算 得 到 的 。 


决定 系数 为 : 


R( 力 =1- 全 -一 一 (11) 


jl 
其 中 i “决定 系数 (coefficient of determination) 被 称 为 R2。 


代码 清单 6-26 ”回归 常用 评价 指标 代码 示例 (一 ) 


org.apache.spark.mllib.evaluation.RegressionMetrics 
org.apache.spark.mllib.linalg.Vector 
org.apache.spark.mllib.regression. {LabeledPoint, LinearRegressionWithSGD} 
org.apache.spark.mllib.util.MLUtils 


jmpor 
jmpor 
jmpor 
jmpor 


// 加 载 数 据 


val data 
































ee 








Utils.loadLibSVMFile (sc,"data/mllib/sample linear regression data.txt") 








// 建立 模型 
val numIterations = 100 
val model = LinearRegressionWithSsGD.train(data, numIterations) 


// 获取 预测 

val valuesAndPreds = data.map{ point => 
val prediction = model.predict (point.features) 
(prediction, point.1label) 
































} 
// 初始 化 指标 对 象 


val metrics = new RegressionMetrics (valuesAndPreds) 


// 平方 误差 

//R-squared = 0.027639110967837 

printlin(s"MSE = ${metrics.meanSquaredError}") 
println(s"RMSE = ${metrics.rootMeanSquaredError}") 




















// R^2 
printlin(s"R-squared = ${metrics.r2}") 


// 平均 绝对 值 误差 
//MAE = 8.148691907953312 
printlin(s"MAE = ${metrics.meanAbsoluteError}") 


// 解释 变异 
// 解释 变异 = 2.8883952017178958 
println(s"Explained variance = ${metrics.explainedVariance}") 





























2) 分 类 


关 


评价 分 类 器 性 能 的 指标 一 般 为 准确 率 (accuracy) ， 其 定义 为 ， 对 于 给 定 的 测试 数据 集 ， 正 确 分 类 的 样本 数 与 总 样本 数 之 比 。 准 确 率 其 实 是 衡量 分 类 正确 的 比例 。 假 设 有 n 个 样本 ，yi 是 第 | 样本 的 真实 
1， 是 第 个 样本 的 预测 类 别 。 


准确 率 计算 公式 为 : 


|] ， 、 
accuracy = 一 六 7 = y.,) ( 12) 
- Tl 


其 中 ,| (x) 是 指示 函数 ， 当 预测 类 别 与 真实 类 别 完 全 一 致 时， 准确 率 为 1， 否 则 为 0。 准 确 率 适用 范围 很 广 ， 但 在 多 分 类 的 一 些 情况 下 区 分 度 较 差 。 

在 二 元 分 类 问题 中 ， 通 常 使 用 精确 率 (precision) 和 召回 率 (recall) 作为 评价 指标 ， 也 称 之 为 查 准 率 和 查 全 率 。 定 义 关 注 的 类 为 正 类 ， 其 他 的 类 为 负 类 ， 分 类 会 出 现 以 下 四 种 情况 ， 分 别 记 为 : 
TP: 正 类 预测 为 正 类 数量 。 

FN: 正 类 预测 为 负 类 数量 。 

FP: 负 类 预测 为 正 类 数量 。 

TN: 负 类 预测 为 负 类 数量 。 


从 图 形 中 观察 分 类 四 种 情况 的 比率 如 图 6-16 所 示 。 





0 d 


图 6-16 ”分 类 相关 比率 


精确 率 计算 公式 为 : 


~ 141B| | 
Precision (4, B) = 区 (13) 


ee “14f1B| | 
ecall(A, B) Bl B (14) 


在 实际 应 用 中 ， 需 要 权衡 精确 率 和 召回 率 ， 一 种 是 绘制 精确 率 -召回 率 曲 线 (precision-recall curve) ， 曲 线 下 的 面积 称 为 AP 分 数 (average precision score) ; 另外 一 种 选择 是 计算 Fp 分 数 。 


) reclSlon :recall 
mp 


Pop (15 ) 


其 中 ，B=1 时 称 为 F1 分 数 ， 是 分 类 和 信息 检索 最 常用 的 指标 。 


还 有 一 种 更 简单 、 直 观 的 方法 ， 通 过 肉眼 观察 可 以 做 出 判断 的 评价 指标 ， 就 是 ROC 曲 线 (Receiver Operating Characteristic Curve) ， 如 图 6-17 所 示 。ROC 曲 线 将 灵敏 度 (真正 率 ) 与 特异 性 ( 假 正 
率 ) 以 图 示 方法 结合 在 一 起 ， 能 够 准确 反映 分 类 灵敏 度 和 特异 性 之 间 的 关系 ， 并 且 多 许 中 间 状 态 存在 ， 可 以 把 试验 结果 分 为 多 个 有 序 分 类 ， 利 于 用 户 结合 专业 知识 ， 权 衡 漏 判 和 误 判 的 影响 。 


设 模 型 预测 正 例 为 A， 实 际 正 例 集合 为 B， 所 有 样本 集合 为 C， 称 


为 真正 率 (true-positive rate) 。 


(16) 


(17) 


为 假 正 率 (false-positive rate) 。 


ry 





AUC (Area Under Curve) 分 数 就 是 曲线 下 的 面积 ， 值 越 大 意味 着 分 类 越 好 。 


代码 清单 6-27 分 类 常用 评价 指标 代码 示例 (二 ) 





import org.apache. 
import org.apache. 
import org.apache. 
import org.apache. 














spark.mllib.evaluation.BinaryClassificationMetrics 
spark.mllib.regression.LabeledPoint 
spark.mllib.util.MLUtils 























// 以 LIBSVM 的 格式 加 载 数 据 
val data = MLUtils.loadLipbSVMFile(sc, "data/mllib/sample binary classification data.txt") 








假 正 深 


图 6-17 ROC 曲 线 


spark.mllib.classification.LogisticRegressionWithLBFGS 














// 切 分 训练 集 (60%) 
val Array (training, test) = data.randomSplit (Array (0.6, 0.4), seed = 11 





training.cache () 





和 测试 集 (40%) 











// 运行 训练 算法 建立 模型 
Val model = new LogisticRegressionWithLBFGS () 








.SetNumClasses (2) 


.run(training) 








// 清楚 预测 闵 值 ,模型 








J 返回 概率 


model.clearThreshold 








// 计算 测试 集 上 的 原始 得 分 


val predictionAndLabels = test.map { case LabeledPoint (label, features) 

















val prediction = model .predict (features) 
(prediction, label) 








} 
// 实例 化 指标 对 象 


Val metrics = new 


// 精确 率 








BinaryClassificationMetrics (predictionAndLabels) 











val precision = metrics.precisionByThreshold 





precision.foreach 








{ case (t, p) => 


printlin(s"Threshold: S$t, Precision: S$p") 


} 


L) 


=> 








//Threshold: 1.0, Precision: 1.0 
//Threshold: 0.0, Precision: 0.6764705882352942 
// 召回 率 

















val recall = metrics.recallByThreshold 

recall.foreach { case (t, r) => 
printlin(s"Threshold: S$t, Recall: S$r") 

} 

//Threshold: 1.0, Recall: 0.9565217391304348 

//Threshold: 0.0, Recall: 1 


// 精确 率 - 召 回 曲 线 


val PRC = metrics.pr 





















































// F-score 

val flScore = metrics.fMeasureByThreshold 

flScore.foreach { case (t, f) => 
printlin(s"Threshold: $t, F-score: $f, Beta = 1") 















































} 
//Threshold: 


1 SCOEES OQ9777777777II7717171; Beta 三 0.,5 
//Threshold: 0 


score: 0.8070175438596492, Beta = 0.5 











:0 ES= 
sO B= 





val beta = 0.5 

val fScore = metrics.fMeasureByThreshold (beta) 

flScore.foreach { case (t, f) => 
printlin(s"Threshold: S$t, F-score: $f, Beta = 0.5") 

} 

//Threshold: 1 

//Threshold: 0 





















































Seores Oo7VITITITTINIT TT Bet 
score: 0.8070175438596492, Bet 











es 
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// AUPRC 

val auPRC = metrics.areaUnderPR 

printlin("Area under precision-recall curve = " + auPRC) 
//Area under precision-recall curve = 0.9929667519181585 


// 使 用 ROC 和 RP 计算 阐 值 


val thresholds = precision.map( . 1) 


// ROC 曲线 
// auROC: Double = 0.9782608695652174 
Val roc = metrics.roc 


























// AUROC 

val auROC = metrics.areaUnderROC 
Println("Area under ROC = " + auROC) 
3) 聚 类 


衡量 聚 类 问题 的 指标 主要 介绍 两 种 : 互信 息 (也 称 为 信息 增益 ) 和 轮廓 系数 。 
互信 息 (mutual information) 可 以 用 来 衡量 两 个 数据 分 布 的 吻合 程度 。 假 设 和 是 个 样本 标签 分 配 情况 ， 则 两 种 分 布 的 (表示 不 确定 程度 ) : 


| I4 


H(U)= 2_P() log(PO), H(V)= 2 P'())log(P'()) (18 ) 


其 中 ，P@2) 直 UI/N,P(j7) 直 VI/N 有 避 和 天 的 互信 息 为 


3 PC 


MI 本 Br Noel 
UD) ZPD el pO 0 


其 中 ，?*740M%1N， 取 值 范围 为 0，1]， 值 越 大 意味 着 聚 类 效果 越 好 。 标 准 化 之 后 的 互信 息 为 : 


MI(U,V) 


VHA 和 


注意 ， 使 用 互信 息 衡量 聚 类 效果 需要 实际 类 别 信息 。 而 轮廓 系数 (silhouette coefficient) 适用 于 实际 类 别 信息 未 知 的 情况 。 对 于 单个 样本 ， 设 a 是 与 它 同类 别 中 其 他 样本 的 平均 距离 ，b 是 与 它 距离 最 
近 不 同类 别 中 样本 的 平均 距离 ， 轮 廓 系数 为 : 


， b—a (21) 
max(a,b) 


NMI(U,V) = 





对 于 一 个 样本 集合 ， 它 的 轮廓 系数 就 是 所 有 样本 轮廓 系数 的 平均 值 。 轮 廓 系数 的 取 值 范围 是 [-1，1]， 数 值 越 高 意味 着 同类 别 样本 距离 近 ， 且 不 同类 别 样本 距离 远 。 
上 面 介绍 了 许多 评价 模型 的 指标 ， 在 实际 应 用 中 ， 需 要 根据 不 同情 况 选 取 不 同 的 指标 进行 评估 。 
(4) 衡量 偏差 与 方差 


对 于 算法 ， 除 了 需要 估计 其 泛 化 性 能 ， 还 希望 能 够 了 解 为 什么 能 够 具有 这 样 的 性 能 。“ 偏 差 -方差 分 解 ” 就 是 解释 机 器 学 习 算 法 泛 化 性 能 的 重要 工具 。 从 数学 上 ， 可 以 证 明 泛 化 误差 可 以 分 解 为 偏差 平 
方 、 方 差 以 及 噪声 平方 之 和 。 让 我 们 观察 图 6-18。 


低 方差 


低 俩 卷 








图 6-18 方差 与 偏差 


图 6-21 中 的 红心 代表 实际 值 ， 蓝 点 代表 预测 结果 。 首 先 给 出 偏差 和 方差 的 定义 。 偏 差 是 指 预 测 值 的 期 望 与 实际 值 之 间 的 差距 ， 差 距 越 大 ， 越 偏离 真实 数据 ; 方差 是 描述 预测 值 的 变化 范围 和 离散 程度 ， 
方差 越 大 ， 数 据 分 布 越 分 散 。 


考虑 偏差 、 方 差 和 正则 化 参数 、 属 性 参数 、 样 本 数 之 间 关 系 。 首 先 ， 正 则 化 参数 和 比较 大 时 ， 参 数 影响 力 非常 小 ， 这 时 候 模型 从 拟 合 ， 称 为 偏差 大 ; 当 正 则 化 参数 人 比较 小 时 ， 训 练 集 的 损失 函数 会 非常 
小 ， 但 是 测试 集 的 损失 函数 会 非常 大 ， 出 现 了 过 拟 合 ， 称 为 方差 大 。 正 则 化 参数 与 损失 函数 之 间 关 系 如 图 6-19 所 示 。 


方差 大 偏差 大 


训练 集 





正则 化 参数 


图 6-19 ”正则 化 参数 与 损失 函数 的 关系 


为 属性 参数 多 或 者 多 项 式 最 高 指数 项 的 指数 很 高 时 ， 对 于 训练 样本 容易 满足 ， 但 是 对 于 测试 样本 ， 会 出 现 非常 大 的 误差 (过 拟 合 ) ; 相反 ， 当 参数 项 过 少 或 者 参数 的 多 项 式 最 高 指数 项 比较 低 时 ， 容 易 
导致 训练 样本 和 测试 样本 都 无 法 满足 (从 拟 合 ) 。 属 性 参数 与 方差 、 偏 差 的 关系 如 图 6-20 所 示 。 


元 






训练 集 - 


多 项 陈 取 局 指 效 


图 6-20 ”属性 参数 与 方差 、 偏 差 的 关系 


现在 ， 让 我 们 考虑 样本 量 与 二 者 的 关系 。 在 其 他 条 件 不 发 生 改 变 的 情况 下 ， 样 本 量 增多 ， 训 练 样本 的 错误 就 会 增加 ， 直 到 饱和 ， 但 是 误差 的 平均 值 没有 太 大 变化 ; 而 样本 较 少 时 ， 虽 然 训 练 样 本 错误 会 
比较 少 ， 但 是 因为 从 拟 合 ， 测 试 集 错误 均值 会 比较 高 。 





训练 集 


图 6-21 高 偏差 


如 果 有 高 偏差 ， 增 加 样本 量 没有 什么 作用 ， 因 为 高 偏差 意味 着 欠 拟 合 。 








训练 集 


区 
图 6-22 高 方差 
如 果 有 高 方差 ， 意 味 着 过 拟 合 ， 增 加 样本 ， 有 可 能 优化 。 因 此 增加 样本 量 是 一 种 减 小 高 方差 的 方法 。 对 于 解决 高 方差 的 问题 还 有 : 减少 属性 、 降 低 高 指数 多 项 式 ; 增 大 入 ; 反之 为 高 偏差 的 解决 方法 。 
2. 回 归 


下 面 开 始 讨 论 最 基础 也 是 最 常见 的 监督 学 习 一 一 回归 问题 。 线 性 回归 已 经 有 了 相当 长 时 间 的 发 展 ， 即 便 在 当今 大 数据 的 时 代 ， 依 然 有 充分 的 理由 研究 并 使 用 。 线 性 模型 非常 简单 ， 而 且 通 常 能 对 解释 变 
量 如 何 影响 目标 变化 提供 充分 、 可 解释 的 描述 。 对 于 预测 分 析 ， 线 性 模型 通常 优 于 非 线 性 模型 ， 尤 其 是 在 训练 集 数 据 量 比较 小 、 噪 音 低 或 数据 稀 朴 的 情况 下 更 是 如 此 。 线 性 模型 还 可 以 作用 在 变换 后 的 变量 
中 ， 如 对 数 变换 等 ， 扩 展 了 其 应 用 范围。 对 于 因 变 量 为 分 类 变量 的 问题 ， 介 绍 logistic 回 归 。 为 了 解决 数据 的 多 重 共 线 性 问题 ， 引 入 岭 回归 和 lasso 回 归 。 此 外 ， 许 多 非 线性 模型 正 是 线性 模型 的 直接 推广 。 


(1) 线性 回归 和 最 小 二 乘 


回归 问题 的 目标 是 在 给 定 输入 变量 的 情况 下 ， 预 测 一 个 或 多 个 连续 目标 变量 的 值 。 线 性 回归 模型 最 简单 的 形式 是 输入 变量 的 线性 函数 ， 将 一 组 输入 变量 的 非 线性 函数 进行 线性 组 合 ， 可 以 得 到 一 类 更 实 
用 的 函数 ， 被 称 为 基 函 数 (basis function) 。 这 样 的 模型 是 参数 为 线性 函数 ， 输 入 变量 是 非 线 性 的 。 


假设 输入 变量 为 X“W"*»“… *)， 并 希望 预测 实际 目标 变量 Y。 线 性 回归 模型 为 : 


h(x)=0, +2,X,0 (1) 
i=] 


这 里 0 为 系数 ， 变 量 X; 可 能 来 自 不 同方 式 : 


定量 输入 的 变换 ， 如 对 数 、 方 根 和 平方 等 。 
. 基 展开 ， 如 和 


2 ,5 中 ， 
. 定性 输入 或 哑 元 化 。 例 如 ， 忆 是 3 级 输入 变量 ， 可 以 创建 Xi， 计 1，…，3， 使 得 X=I (Z=j) 。 这 组 XX 表现 了 的 效果 ， E 
变量 间 的 交互 作用 ， 如 35 总 。 


假设 有 一 个 训练 集 Co 》) ，(x> 7) ，…(Cxc J) 通 过 训练 得 到 参数 69。 最 常用 的 方法 是 最 小 二 乘 ， 希 望 最 小 化 残 差 平方 和 ， 损 失 函 数 为 : 


WE > 00 -h(x )) (2) 


i=] 


我 们 希望 能 够 最 小 化 (9) ， 即 求 出 min」(9) 。 直 观 上 ， 最 小 二 乘 拟 合 是 不 错 的 ， 能 够 度量 平均 拟 合 偏离 程度 ， 从 而 选取 偏离 程度 最 小 的 拟 合 函 数 。 





梯度 下 降 算 法 (gradient descent) 。 它 是 一 种 搜索 算法 ， 其 基本 思想 是 赋予 6 一 个 初始 值 ， 然 后 通过 沿 着 负 梯 度 方 向 更 新 6， 使 得 上 」 (6) 最 小 : 


0 (3 ) 


接 下 来 介绍 一 种 求解 6 的 最 优化 算法 


这 里 ，a 称 为 学 习 率 ，a 的 大 小 决定 梯度 下 降 的 速率 。 如 果 沿 正 梯度 方向 搜索 ， 得 到 最 大 值 。 化 简 上 式 得 


oO {1z | 
0,:=0,—Q—— 1 六 oo hy 


-0 -co 人 o> x; —y) 
/ (4) 


=0, -a (h(x")- yy 
i=] 


在 上 式 中 ， 和 迭代 的 速率 与 误差 项 ( wx )-y ) 以 及 ao 的 值 正 相关 ， 当 * (we 7 ) 过 小 时 ，c 收 敛 速率 很 慢 ， 反 之 若 " ( wx )-7 ) 过 大 ，c 收 敛 速 度 就 过 快 ， 可 能 无 法 收敛 到 局 部 最 小 值 。 
非 线 性 回归 是 对 输入 变量 应 用 变换 ， 其 展开 等 方法 转化 为 线性 模型 ， 按 线性 回归 方法 进行 拟 合 。 接 下 来 介绍 如 何 使 用 spark MLlib 进 行 回忆， 如 代码 清单 6-28 所 示 ， 然 后 接着 讨论 Logistic 回 归 。 


代码 清单 6-28 ”线性 回归 代码 示例 


org.apache.spark.mllib.linalg.Vectors 
org.apache.spark.mllib.regression.LabeledPoint 
org.apache.spark.mllib.regression.LinearRegressionModel 
org.apache.spark.mllib.regression.LinearRegressionWithSGD 


jmpor 
jmpor 
jmpor 
jmpor 


// 加 载 切 分 数据 

val data = sc.textrFile("data/mllib/ridge-data/lpsa.data") 

val parsedData = data.map { line => 
val parts = line.split(',') 
LabeledPoint (parts (0) .toDouble, Vectors.dense(parts(1).split(' ') .map( .toDouble))) }.cache() 

// 建立 模型 

//RidgeRegressionWithSGD 和 LassoWithSGD 可 以 以 类 似 LinearRegressionWithSGD 

// 的 方式 运行 

val numIterations = 100 

val stepSize = 0.00000001 

val model = LinearRegressionWithSsGD.train (parsedData, numIterations,stepSize) 


// 训练 集 上 评估 模型 并 计算 训练 误差 

val valuesAndPreds = parsedData.map { point => 
val prediction = model .predict (point.features) 
(point.label, prediction) 

















































































































val MSE = valuesAndPreds.map{ casel(lv, p) => math.pow((v - p), 2) } .mean() 
//MSE: Double = 7.4510328101026 
printlin("training Mean Squared Error = " + MSE) 


// 保存 加 载 模型 
model.save (sc, "target/tmp/scalaLinearRegressionWithSGDModel") 
val sameModel = LinearRegressionModel.load(sc, "target/tmp/scalaLinearRegressionWithSGDModel") 












































(2) Logistic 回 归 


Logistic 回 归 是 常见 的 二 分 类 算法 ， 在 介绍 Logistic 回 归 之 前 ， 先 简单 了 解 一 下 Logistic 函 数 。 我 们 把 型 为 Te 的 函数 称 为 Logistic 函 数 ， 也 称 为 sgmoid 函 数 ， 其 函数 图 像 类 似 图 6-23。 





() 


图 6-23 Logistic 函数 图 像 


1 
Logistic 函 数 在 〈-c，+co) 是 连续 的 ， 并 且 单 调 递 增 ， 同时 是 关于 点 "网 称 的 ， 并 且 值 域 为 [0，1]。 


假设 有 n 个 训练 样本 C7 0 oo) 其 中 yE(0，1。 其 预测 函数 为 : 


7r 、 ] 
h(x)= g(0 X) = (5) 


因为 我 们 希望 得 到 最 优 的 参数 9， 令 P01K; OA ， 所 以 Po-0hs 0)=1-h0) 将 上 式 合并 得 到 |: 


POIx;0)=(ho(x)) (1 -ho(x)) ? (6) 


其 似 然 方 程 为 : 


LO0)=POy|x0) = I) hr) (7) 


化 为 对 数 形式 : 
1(0)=logL(0)= > yloghs (x )+(1—y")log(l— h(x")) ER 
i=] 


根据 函数 的 性 质 可 知 ，L (6) 和 | (6) 具有 相同 单调 性 ， 求 解 | (9) 的 最 大 值 即 可 。 


对 | (6) 求 债 导 : 


O nn 有 
—/1(0)= >_(h0(x )—y" )x (9) 
060 三 


0 =0; -a(hy(x ) -7 (10) 


看 上 去 和 线性 模型 的 形式 类 似 ， 但 由 于 he (x) 不 同 ， 所 以 是 两 个 不 同 的 迭代 公式 。 最 后 将 求解 的 9 代入 %0 中， 如 采 hx) 0.5， 那 么 p01;0) = 0.5, 该 样本 属于 正 例 的 概率 更 大 ， 因 此 将 其 归 入 正 例 所 在 
的 类 ; 反之 , 若 heg (x) <0.5, 该 样本 输入 负 例 的 概率 更 大 ， 故 将 其 归 入 负 例 所 在 的 类 。 


代码 清单 6-29 ”Logistic 回 归 代 码 示例 





t org.apache.spark.SparkContext 
t org.apache.spark.mllib.classification. {LogisticRegressionWithLBFGS, LogisticRegressionModel} 
t org.apache.spark.mllib.evaluation.MulticlassMetrics 
import org.apache.spark.mllib.regression.LabeledPoint 

i 七 org.apache.spark.mllib.linalg.Vectors 

t org.apache.spark.mllib.util.MLUtils 









































// 以 LIBSVM 格式 加 载 数据 
val data = MLUtils.loadLipbSVMFile(sc, "data/mllib/sample libsvm data.txt") 


// 切 分 数据 训练 集 (60%) 测 试 集 (40%) 
val splits = data.randomSplit (Array (0.6, 0.4), seed = 111) 
val training = splits (0) .cache () 

val test = splits (1) 





























// 运行 训练 算法 建立 模型 

val model = new LogisticRegressionWithLBFGS () 
.SetNumClasses (10) 
.run(training) 


// 在 测试 集 计算 得 分 

val predictionAndLabels = test.map { case LabeledPoint (label, features) => 
val prediction = model .predict (features) 
(prediction, label) 

} 


// 获取 评估 指标 

// Precision = 0.9705882352941176 

val metrics = new MulticlassMetrics (predictionAndLabels) 
val precision = metrics.precision 

printlin("Precision = " + precision) 


















































(3) 岭 回归 


在 实际 中 ， 会 出 现 两 个 或 多 个 解释 变量 存在 相关 性 的 情况 ， 这 时 候 会 出 现 多 重 共 线性 (multicollinearity) 。 模 型 或 者 数据 微笑 的 变化 都 可 能 引起 参数 9 的 较 大 变化 ， 模 型 变 得 不 稳定 ， 同 时 不 易于 解 
如 果 存 在 高 度 多 重 共 线性 造成 计算 困难 ， 如 矩阵 的 逆 可 能 易于 求解 。 


首 


在 开始 讲述 岭 回 归 之 前 ， 先 介绍 多 重 共 线性 的 判别 方法 用 到 的 两 个 参数 : 容忍 度 (tolerance) 或 者 方差 膨胀 因子 (Variance Inflation Factor，VIF) 和 条 件数 (condition number， 常 用 kk 表示) 。 
容忍 度 的 定义 为 : 


， I 
tolerance =1—R, VIE, =T 7 (11) 
j 


其 中 ,* 在» 为 因 变 量 时 ， 对 其 他 自 变 量 回 归 的 决定 系数 ， 容 忍 度 太 小 (如 小 于 0.2 或 0.1) 或 VIF 太 大 (如 大 于 5 或 10) 表示 多 重 共 线 性 严重 影响 最 小 二 乘 的 估计 值 。 而 条 件数 为 : 





其 中 ，》 为 XIX 的 特征 值 (X 为 自 变量 矩阵 ) 。 显 然 当 X 正 交 时 ， 条 件数 k 为 1。 当 k > 15 时 ， 存 在 共 线性 问题 ， 而 k > 30 说 明 具 有 严重 的 多 重 共 线 性 问题 。 接 下 来 介绍 几 种 常用 的 处 理 多 重 共 线性 的 方法 ， 


如 岭 回归 (ridge regression) 和 lasso 回 归 。 


假定 输入 变量 矩阵 X= {xij 的 维度 为 nxPp。 前 面 介 绍 的 最 小 二 乘 回归 (ordinary leastsquares，ols) 试图 获取 使 得 残 差 平方 和 最 小 的 系数 6， 即 : 


n p 
A(ols) : (i) 2 
0 =argmin >_(y -0, — 2_,x,,0,) (13) 
i=] | 
岭 回归 是 加 入 一 个 正则 化 项 约束 系数 ， 其 罚 项 就 是 在 上 式 中 加 入 一 项 >” 换 句 话说 ， 怜 回归 的 系数 需要 同时 满足 残 差 平方 和 最 小 ， 以 及 系数 不 能 大大， 
~ n 已 已 
(ols) _ > (D) -> 2 > 2 
0 =argmin 2_[(y" -0, -2%,0,) +42,0)] (14) 
i=] j=1 j=] 
等 价 于 在 > < 的 约束 条 件 下 ， 满 足 : 


Dordge) -amgmin2O 一 人 -0) ;) (15) 


这 时 ， 需 要 同时 确定 和 和 s， 通 常 采 用 的 方法 是 交叉 验证 或 5 。 “aow% 会 将 整个 模型 的 精确 度 和 偏 倚 与 具有 最 佳 预 测 变 量子 集 的 模型 进行 比较 ， 接 近 预 测 变 量 数 加 上 常量 数 的 “™“ 值 表明 模型 在 


估计 真实 回归 系数 和 预测 未 来 响应 时 ， 比 较 精 确 ， 无 偏 倚 。 从 Kk 个 变量 选取 p 个 参与 回归 ， 那 么 “统计 量 定 义 为 : 


SSE, 
0, = — -n+2p; SSE, = /人 ey (16) 


已 
i=] 


(4) Lasso 回 归 


Lasso 回 归 在 原理 上 与 岭 回 归 类 似 ， 差 别 是 在 罚 项 中 不 是 系数 的 平方 ， 而 是 绝对 值 ， 即 : 


Pidge) _ argmin >_,(y" -0 — ->%,0) 有 (17) 
i1=] 


p 
st. 419 10,l<s 
j=l 


lasso 回 归 和 上 岭 回 归 的 另 一 个 不 同 之 处 是 ， 不 会 缩小 系数 ， 而 是 筛选 掉 一 些 系数 。 


nl 


xlh= 2 aa 1+ | tt (18 ) 


i=] 


Dx |=VR + + (19) 


一 ] 


Ix)= 





显然 ， 岭 回归 的 罚 项 为 L2 范 数 式 的 ，lasso 回 归 的 罚 项 是 L1 范 数 式 的 。 现 在 ,讨论 二 者 有 什么 区 别 。 


使 用 梯度 下 降 测 试 二 者 的 下 降 速 度 ( 见 图 6-24 和 图 6-25) 。 
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图 6-25 岭 回归 
L1 范 数 与 L2 范 数 的 一 个 区 别 在 于 下 降 的 速度 不 同 ， 在 0 附近 ，lasso 回 归 下 降 速 度 要 快 。 接 下 来 从 空间 限制 方面 考虑 二 者 的 区 别 。 


为 了 方便 , 我们 考虑 二 种 情况 ， 在 w1，w2 平 面 绘 制 目标 溯 数 的 等 高 线 ， 约 束 条 件 在 平面 上 形成 一 个 norm ball。 等 高 线 与 norm ball 首 次 相交 的 地 方 就 是 最 优 解 (如 图 6-26 所 示 ) 。 
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NN 


图 6-26 ”最 优 解 几何 解释 


hi 


人 


在 目标 函数 与 L1-ball 相 交 于 顶点 ， 会 产生 w1=0， 产 生 稀 足 性 。 而 L2 就 没有 这 个 优势 。 因 此 ，L1 会 趋 于 产生 少量 的 特征 ， 其 他 特征 都 为 0， 而 L2 会 选择 更 多 的 特征 ， 这 些 特 征 会 接近 0。Lasso 回 归 在 特 
征 选 取 时 非常 有 用 ， 而 Ridge 回 归 只 是 一 种 正则 化 。 


类 是 监督 学 习 的 一 个 核心 问题 。 机 器 学 习 主 要 分 为 有 监督 学 习 (supervised learning) 和 非 监督 学 习 (unsupervised learning) 。 监 督学 习 就 是 通过 已 有 的 训练 样本 (已 知 数据 以 及 其 对 应 输出 ) ， 
训练 得 到 一 个 最 优 模型 ， 再 利用 这 个 模型 将 所 有 输入 映射 为 相应 输出 ， 并 对 输出 进行 简单 的 判断 。 非 监督 学 习 是 没有 任何 训练 样本 ， 直 接 对 数据 建 模 ， 和 典型 的 例子 是 聚 类 。 


在 监督 学 习 中 ， 输 入 变量 取 有 限 个 离散 值 时 ， 回 归 问 题 变 为 了 分 类 问题 。 这 时 ， 输 入 变量 可 以 是 离散 的 ， 也 可 以 是 连续 的 。 从 训练 样本 中 学 习 一 个 分 类 模型 或 者 分 类 决策 函数 ， 称 为 分 类 器 
(classifier) ; 分 类 器 对 新 的 输入 预测 时 ， 称 为 分 类 (classification) ， 其 中 可 能 的 输出 称 为 类 (class) 。 类 别 为 多 个 时 ， 是 多 元 分 类 。 本 书 只 考虑 类 别 为 2 个 的 情况 ， 也 就 是 二 元 分 类 。 


下 面 介绍 决策 树 、 贝 叶 斯 分 类 、SVM 以 及 Ki 乒 邻 。 
(1) 决策 树 


决策 树 是 一 种 分 而 治之 (divide and conquer) 的 决策 过 程 。 通 过 对 训练 集 的 学 习 ， 挖 掘 有 用 规则 ， 用 于 新 输入 的 预测 。 主 要 特点 是 具有 可 读 性 ， 而 且 分 类 速度 快 。 决 策 树 学 习 主 要 包括 三 个 步骤 : 特 
征 选择 、 决 策 树 生成 以 及 蔓 枝 。 


接 下 来 介绍 决策 树 的 基本 概念 ， 然 后 按照 步骤 学 习 介 绍 。 
1) 决策 树 模型 


首先 了 解 什么 是 决策 树 。 分 类 决策 树 模型 是 一 种 描述 对 实例 进行 分 类 的 树 形 结构 。 决 策 树 的 示意 图 如 图 6-27 所 示 。 决 策 树 由 节点 (node) 和 有 向 边 (directed edge) 组 成 。 在 图 6-27 中 顶端 表示 “天 
气 ” 的 节点 为 根 节点 (root node) ; 代表 “湿度 ”与 “风速 ”的 节点 为 非 叶子 节点 (non-leaf node) ， 这 两 种 节点 统称 为 内 部 节点 (internal node) ， 内 部 节点 表示 一 个 特征 或 者 属性 。 黑 色 的 线 表 示 
分 支 (branch) ， 代 表 对 数据 属性 测试 的 结果 ; 下 侧 的 圆圈 代表 叶 节 点 (leaf node) ， 表 示 一 个 类 。 图 6-27 为 根据 天 气 判断 是 否 要 外 出 ， 最 后 分 类 结果 为 两 类 “ 否 ” 和 “是 ”，。 


清 天 -一 雨天 





正常 RX 短 风 


下 


图 6-27 决策 树 示 意图 


用 决策 树 分 类 ， 首 先 从 根 节点 开始 ， 对 实例 的 某 一 特征 进行 测试 ， 根 据 测试 结果 将 实例 分 配 到 其 子 节点 ， 每 个 子 节点 对 应 该 特征 的 一 个 取 值 。 递 归 地 对 实例 进行 测试 并 分 配 ， 直 到 生成 叶 节 点 ， 叶 节点 
存放 的 类 别 作为 分 类 结果 


可 以 看 到 ， 决 策 树 的 决策 过 程 非常 直观 ， 易 于 理解 。 目 前 决策 树 已 广泛 应 用 于 医学 、 制 造 产 业 、 天 文学 、 分 支 生物 学 以 及 商业 等 诸多 领域 。 下 面 介绍 决策 树 学 习 的 内 容 。 


决策 树 学 习 是 通过 对 给 定 训练 样本 构建 一 个 决策 树 模型 ， 让 它 能 够 对 特征 进行 正确 分 类 。 决 策 树 算法 分 为 两 部 分 ， 训 练 和 分 类 。 其 中 决策 树 训练 的 是 为 了 最 小 化 损失 函数 或 经 验 风 险 ， 确 定 每 个 分 支 的 
参数 ， 以 及 叶 节 点 的 输出 。 决 策 树 自 上 而 下 的 循环 分 支 学 习 使 用 贪心 算法 。 在 每 一 步 选择 中 都 采取 当前 状态 下 最 好 的 选择 ， 称 为 贪心 算法 。 具 体 来 说 ， 给 定 一 个 分 支 节点 ， 以 及 分 配 到 该 节点 的 训练 样本 ， 
选取 某 个 或 某 些 特征 ， 经 过 搜索 不 同 的 分 支 遂 数 得 到 一 个 最 优 解 (意思 是 在 某 种 准则 下 收益 最 高 或 风险 最 小 ) 。 其 中 每 个 分 支 节点 只 关心 自己 的 目标 遂 数 。 


2) 特征 选择 


特征 选择 在 于 选择 对 训练 样本 具有 分 类 能 力 的 特征 。 如 果 一 个 特征 分 类 的 结果 和 随机 分 类 结果 没有 太 大 差别 ， 那 么 这 个 特征 是 没有 分 类 能 力 的 。 不 使 用 这 些 特征 对 决策 树 学 习 的 精度 影响 不 大 。 通 常 采 
用 的 方法 是 信息 增益 或 信息 增益 率 。 在 讲 信息 增益 之 前 ， 先 了 解 灼 概念 。 


粒 的 本 质 是 一 个 系统 “内 在 的 混乱 程度 ”。 在 信息 论 和 概率 统计 中 表示 为 随机 变量 不 确定 的 度量 。 设 X 是 一 个 有 限 的 离散 随机 变量 ， 其 概率 分 布 为 : 
直人 ED (1) 
那么 随机 变量 X 灼 定义 为 : 
i 
H(x)=—> plogp, (2 ) 
1 一 ] 


其 中 ,约定 当 pi=0 时 ，0log0=0。 是 以 2 或 者 e 为 底 ， 并 且 灶 的 单位 为 比特 (bit) 或 者 纳 特 (nat) 。 


考虑 二 项 分 布 情况 , P (X=1) =p, P (X=0) =1-p，0<pz1, 粹 为 : 


H(x)=-plogp-(1-p)log,(1-p) (3) 


其 天 于 p 的 变化 曲线 如 图 6-28 所 示 。 





0 ] 


图 6-28 ”二 项 分 布 精 与 概率 变化 情况 


在 p=1 和 p=0 时 ， 事 件 发 生 是 必然 的 ， 炳 为 0，p=0.5 时 ， 粹 值 最 大 ， 随 机 变量 的 不 确定 性 也 最 大 


假设 随机 变量 (X,Y) ， 并且 其 联合 概率 分 布 为 : 
/ X Fr 上 一 一 岂 .. = 2 一 ] 二 十 台 ( 4 ) 
( Nj, y;) Pi / 9 9 ns, ] 9 9 时 mm | 


条 件 H (XlY) 表示 在 已 知 随机 变量 X 的 条 件 下 随机 变量 Y 的 。 定 义 为 在 给 定 随机 变量 X 的 条 件 下 ， 随 机 变量 Y 的 条 件 概率 分 布 的 业 对 随机 变量 X 的 数学 期 望 。 


HCIX)= DpHOYIX=%) (5) 


根据 这 两 个 定义 ， 可 以 得 到 特征 选择 第 一 个 度量 指标 。 信 息 增益 (也 称 为 互信 息 ，mutual information) ， 其 含义 是 已 知 特征 X 的 信息 使 得 类 Y 的 不 确定 性 减少 的 程度 。 严 格 定义 是 ， 特 征 A 对 训 | 练 样本 
D 的 信息 增益 g (D，A) ， 是 集合 D 的 粹 H (D) 与 在 已 知 特征 A 的 条 件 下 ，D 的 条 件 炉 H (DIA) 之 差 。 


8(DI4) = H(D)-HDIA) (6 ) 


在 决策 树 中 ，H (D) 表示 对 数据 集 D 分 类 的 不 确定 性 ; H (DIA) 表示 在 特征 A 已 知 的 情况 下 ， 对 数据 集 D 分 类 的 不 确定 性 。 这 是 ， 它 们 的 互信 息 ， 也 就 是 信息 增益 表示 因为 特征 人 而 使 得 数据 集 D 的 不 确 
定性 减少 的 程度 。 很 明显 ， 信 息 增益 大 的 特征 具有 很 强 的 分 类 能 力 。 


根据 信息 增益 选择 特征 的 方法 是 : 对 训练 样本 D， 计 算 其 每 个 特征 的 信息 增益 ， 比 较 其 大 小 ， 选 择 信息 增益 最 大 的 特征 。 


类 f=1, 2, …, Kk, Pc HD. 


>1DHD 


给 定 训练 样本 D，|D| 为 样本 容量 。 假 定 有 K 个 对 于 特征 4s ft 4»… 0 将 样本 集合 D 分 为 n 个 子 集 ?"?-… 2, 为 样本 数 ， 三 “因此 信息 增 益 的 算法 为 : 


Q@ 计 算 训练 样本 D 的 信息 粹 H (D) 。 
K 
Ch, [Cx 


H(D)= -> —to 
(D) 2 Dp "8 1D1 (7 ) 


@ 计 算 特征 A 对 训练 样本 D 的 条 件 炳 H (DIA) 。 


D 
| ply 


H(D|A)= > (CD ) (8) 


2(D|A) = H(D)-H(DIA) (9) 


言 息 增 益 选 择 特征 ， 偏 向 于 选择 取 值 多 的 特征 。 一 种 优化 方式 是 使 用 信息 增益 率 (information gain ratio) 。 其 定义 为 : 特征 A 对 训练 样本 D 的 信息 增益 率 gR (D，A) ， 是 其 信息 增益 g (D，A) 与 
训练 样本 D 关 于 特征 A 的 值 的 精 HA (D) 之 比 。 


_ &g(D|4) | 
ga(D, A = Dy (10) 


H,(D)= 人 的 ro ,1 ， 下 有 
里 ， I21 121 n 是 特征 A 的 个 数 。 


jxF 


最 后 ， 补 充 另 外 一 种 特征 选择 的 方法 一 一 基尼 系数 。 假 设 有 K 个 类 ， 样 本 点 属于 第 k 个 类 的 概率 为 pk， 则 概率 分 布 的 基尼 系数 定义 为 : 


大 K 
Gini(p)= 2,P(-p)=1- 2 Pp (11) 
k=l k=] 


3) 剪 校 


常见 的 决策 树 模型 生成 算法 有 ID3 和 (人 C4.5。1D3 算 法 的 基本 思想 是 贪心 算法 ， 采 用 自 上 而 下 的 分 而 治之 的 方法 构建 决策 树 。 对 决策 树 各 个 节点 上 的 使 用 信息 增益 选择 特征 ， 运 代 构 建 决 策 树 。 具 体 是 : 从 

根 节点 开始 ， 计 算 所 有 特征 的 信息 增益 ， 选 择 信息 增益 最 大 的 特征 作为 节点 ， 由 该 特征 的 不 同 取 值 构建 子 节点 ; 再 对 子 节点 调用 上 述 方法 ; 直到 某 一 子 集中 的 数据 都 属于 同一 类 别 ， 或 者 没有 特征 可 以 再 用 

于 分 割 。1D3 算 法 总 是 选择 具有 最 高 信息 增益 的 特征 作为 当前 节点 的 测试 属性 ， 该 属性 使 得 结果 划分 后 的 样本 分 类 所 需 的 信息 量 最 小 ， 并 反映 划分 的 “不 纯度 ”。 这 种 方法 使 得 一 个 对 象 分 类 所 需 的 期 望 测 试 
数目 最 小 ， 并 尽量 确保 一 棵 相对 简单 的 树 来 刻画 相关 信息 。 


C4.5 和 1D3 完 全 一 样 ， 除 了 C4.5 是 使 用 信息 增益 率 来 选择 特征 。 


根据 前 面 分 析 可 以 发 现 ，1D3 算 法 在 计算 信息 增益 时 ， 由 于 信息 增益 存在 内 在 偏 置 ， 偏 向 于 具有 更 多 值 的 特征 ， 太 多 的 属性 值 把 训练 样本 分 割 成 非常 小 的 空间 。 因 此 这 个 属性 可 能 会 有 非常 高 的 信息 增 
益 ， 而 且 被 选 为 根 节点 的 决策 属性 ， 并 形成 一 棵 深度 为 1 但 是 非常 宽 的 树 ， 这 棵 树 可 以 理想 地 分 类 训练 数据 ， 但 是 对 新 的 输入 具有 非常 差 的 泛 化 能 力 。 因 为 它 过 拟 合 了 。 


据 研究 表明 ， 在 多 数 情况 下 ， 过 拟 合 会 导致 决策 树 的 精度 降低 10% ~ 259%。 过 拟 合 不 仅 会 影响 决策 树 对 未 知 数据 的 精度 ， 还 会 导致 树 的 规模 增 大 。 一 方面 ， 叶 节点 不 断 分 割 ， 在 极端 的 情况 下 ， 一 个 叶 
节点 只 包括 一 个 实例 。 此 时 决策 树 在 训练 样本 上 的 精度 达到 了 100%， 而 且 叶 节点 的 个 数 为 样本 数 ， 这 样 显然 是 没有 意义 的 。 另 一 方面 ， 决 策 树 不 断 向 下 生长 ， 树 的 深度 也 在 不 断 增 加 。 由 于 每 一 条 从 根 节点 
到 叶 节 点 的 路 径 代 表 一 条 规则 ， 树 的 深度 很 深 ,说 明 产 生 的 规则 更 长 。 这 样 的 规则 是 不 容易 理解 的 。 综 上 所 述 ， 决 策 树 的 前 枝 是 有 必要 的 。 


一 般 情 况 下 ， 可 以 使 用 以 下 两 种 方法 进行 部 枝 : 
@ 在 决策 树 完美 分 割 训 练 样 例 前 ， 停 止 决策 树 的 生长 。 这 种 方法 称 为 预 剪 术 3 方法 。 
@ 与 预 减 枝 方 法 避免 过 度 分 割 思想 不 同 ， 一 般 情况 即便 决策 树 出 现 过 拟 合 现 象 ， 仍 允许 其 生长 。 在 决策 树 完全 生长 之 后 ， 通 过 特定 标准 去 掉 原 树 的 子 树 。 


预 剖 枝 方 法 其 实 是 对 决策 树 停止 准则 的 优化 。 设 定 一 个 阅 值 4， 当 一 个 节点 分 割 导致 业 减 小 的 数量 小 于 阅 值 4 时， 就 把 该 节点 看 作 一 个 叶 节 点 。 因 此 ， 阐 值 q 的 选择 对 决策 树 影 响 很 大 。 在 实际 中 ， 给 出 
合适 的 国 值 x 还 是 相当 困难 的 。 

现在 介绍 后 剪 校 方法 。 一 棵 树 可 以 看 作 一 个 或 多 个 节点 的 有 限 集合 T， 使 得 除根 节点 外 ,剩余 节点 被 划分 成 m>0 个 不 相交 的 集合 人 ”… 而 且 每 个 集合 也 是 一 棵 树 。 这 些 树 被 称 为 子 树 。 因 此 ， 可 以 将 
决策 树 后 前 校方 法 看 作 去 掉 除 根 节点 外 ， 某 些 子 树 所 有 节点 的 过 程 。 


可 以 通过 极 小 化 决策 树 整体 损失 函数 来 实现 该 方法 。 决 策 树 损失 函数 的 定义 为 : 设 树 T 的 叶 节 点 个 数 为 |T|，t 是 树 T 的 叶 节 点 ， 该 叶 节 点 有 Nt 个 样本 。 根 据 之 前 炳 的 相关 定义 ， 可 以 得 到 决策 树 的 损失 遂 
数 : 


| 


C,(T)= > NH(T)+a|T (12 ) 


SNH) 








， 站 | 表示 模型 复杂 度 ，a (Qa>0) 控制 两 者 之 间 的 影响 。 较 大 的 a 趋 于 选择 简单 的 树 ， 较 小 的 a 偏向 于 选择 复杂 

















9 预测 误差 ， 也 就 是 说 模型 
。 其 中 对 于 以 [为 根 的 子 树 ， 其 c 为 : 


上 式 中 ， 表示 模型 











练 演 





















































“只 we 


~ C0) CR) 
<R 


7 
C(r)= Sn 万 (D+w 与 CORD= > NH,(R)+a |RIecaf | 





(13) 
lcaf > 一 ] 


这 里 ， 与 分 别 代表 剪 校 后 和 剪 校 前 的 损失 遂 数 。 
后 前 村 方法 是 : 对 于 给 定 的 决策 树 To， 计 算 所 有 内 部 节点 的 nq， 查找 最 小 的 a 所 在 的 节点 ， 况 枝 得 到 子 树 Tk， 重 复 上 述 步骤 ， 直 到 决策 树 Tk 只 有 一 个 节点 ， 对 得 到 的 决策 树 子 树 序列 … 应 用 测 


试 集 选择 最 优 子 树 。 最 优 子 树 判断 标准 可 以 使 用 评价 函数 : 
C(f)= >》 NH.,(7) (14) 
teleaf 


先 让 我 们 看 下 使 用 决策 树 分 类 ， 具 体 见 代 码 清单 6-30。 


代码 清单 6-30 ”决策 树 分 类 代码 示例 





import org.apache.spark.mllib.tree.DecisionTree 
import org.apache.spark.mllib.tree.model .DecisionTreeModel 
import org.apache.spark.mllib.util.MLUtils 


// 加 载 切 分 数据 集 

// 必须 以 LIBSVM 格式 加 载 

val data = MLUtils.loadLipbSsVMFile(sc, "data/mllib/sample libsvm data.txt") 
// Split the data into training and test sets (30% held out for testing) 
val splits = data.randomSplit (Array (0.7, 0.3)) 
val (trainingData, testData) = (splits(0), splits(1)) 


// 训练 决策 树 模型 
// categoricalFeaturesInfo 为 空 表明 所 有 特征 是 连续 的 
// 使 用 Gini 系 数 , 树 的 最 大 深度 为 5, 测试 集 误差 使 用 准确 率 指标 
val numClasses = 2 
val categoricalFeaturesIinfo = Maplint, Int]() 
val impurity = "gini" 

val maxDepth 3 

val maxBins = 32 












































































































































val model = DecisionTree.trainClassifier (trainingData, numClasses, categoricalFeaturesInfo, 
impurity, maxDepth, maxBins) 


// 在 训练 实例 上 评估 模型 ,并 计算 测试 误差 

val labelAndPreds = testData.map { point => 
val prediction = model.predict (point.features) 
(point.label, prediction) 





























} 





























val testErr = labelAndPreds.filter(r => r. 1 != r. 2) .count () .toDouble / testData.count () 
printlin("Test Error = " + testErr) 
//Test Error = 0.038461538461538464 























printlin("Learned classification tree model:\n" + model.toDebugString) 











//Learned classification tree model: 

// DecisionTreeModel classifier of depth 2 with 5 nodes 
//If (feature 434 <= 0.0) 

// If (feature 99 <= 0.0) 

//Predict: 0.0 

// Else (feature 99 > 0.0) 




































































// Predict: 1.0 
/ Else (feature 434 > 0.0) 
// Predict: 1.0 





// 保存 加 载 模 型 
model.save (sc, "target/tmp/myDecisionTreeClassificationModel") 
val sameModel = DecisionTreeModel.load(sc, "target/tmp/myDecisionTreeClassificationModel") 




















再 让 我 们 看 下 使 用 决策 树 进行 回归 ， 具 体 见 代 码 清单 6-31。 


代码 清单 6-31 ”决策 树 回 归 代码 示例 


import org.apache.spark.mllib.tree.DecisionTree 
import org.apache.spark.mllib.tree.model .DecisionTreeModel 
import org.apache.spark.mllib.util.MLUtils 


// 加 载 切 分 数据 集 

val data = MLUtils.loadLipbSsVMFile(sc, "data/mllib/sample libsvm data.txt") 
// 切 分 数据 为 训练 集 和 测试 集 (30% 为 测试 集 
val splits = data. ed 0 
val _ (trainingData testData) = (splits(0), splits(1)) 


// 训练 决策 树 模 型 
// categoricalFeaturesInfo 为 空 表 明 所 有 特征 是 连续 的 
// 使 用 variance, 树 的 最 大 深度 为 5, 测 试 集 误 差 使 用 MSE 
val categoricalFeaturesI a, = Maplint, Int]() 
val impurity = "variance" 

val maxDepth 5 

val maxBins = 32 



































~ 一 






















































































val model = DecisionTree.trainRegressor (trainingData, categoricalFeaturesInfo, impurity, 
maxDepth, maxBins) 


// 在 训练 实例 上 评估 模型 ,并 计算 测试 误差 


val labelsAndPredictions = testData.map { point => 























val prediction = model.predict (Point .features) 
(point.label, prediction) 











} 
val testMSE = labelsAndPredictions.map{ case (v, p) => math.pow(v - p, 2) } .mean() 
printlin("Test Mean Squared Error = " + testMSE) 
// Test Mean Squared Error = 0.031250000000000014 

printlin("Learned regression tree model:\n" + model.toDebugString) 





























//Learned regression tree model: 

//DecisionTreeModel regressor of depth 1 with 3 noqes 
// If (feature 434 <= 0.0) 

// Predict: 0.0 

//Else (feature 434 > 0.0) 

//Predict: 1.0 


// 保存 加 载 模型 
model.save (sc, "target/tmp/myDecisionTreeRegressionModel") 
val sameModel = DecisionTreeModel.load(sc, "target/tmp/myDecisionTree-RegressionModel") 
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贝 叶 斯 分 类 基于 贝 叶 斯 定理 和 特征 条 件 独立 假设 。 分 类 算法 比较 研究 发 现 ， 朴 素 贝 叶 斯 分 类 可 以 与 决策 树 和 经 过 挑选 的 神经 网 络 分 类 器 相 媲 美 ， 而 且 对 于 大 型 数据 库 ， 贝 叶 斯 分 类 法 也 表现 出 高 准确 率 


首先 回顾 概率 论 中 的 一 些 基 本 概念 和 贝 叶 斯 定理 ， 然 后 介绍 简单 贝 叶 斯 分 类 的 朴素 贝 叶 斯 分 类 。 


假定 X 是 数据 集 ，H 是 某 种 假设 ， 比 如 数据 集 X 属 于 某 个 特定 类 C。 那 么 在 给 定数 据 集 的 条 件 下 ， 假 设 H 的 概率 是 : 


P(HX 
PU = Ty (1) 


其 中 P (H) 是 先 验 概率 (prior probability) ，P (HIX) 是 后 验 概率 (posterior probability) 。 


P(X|H)P(H) 
P(X) 


接 下 来 探讨 朴素 贝 叶 斯 分 类 法 。 设 X 是 输入 空间 +s* 的 n 维 特征 向 量 ，Y 是 输入 空间 六 {6,%…c 的 随机 变量 ,，P (X,Y) 是 X 和 Y 的 联合 概率 分 布 。 训 练 样本 为 合 {0， ?> 0w?91 关 于 P (X，Y) 是 独 
立 同 分 布 的 。 


P(H|X)= (2) 


朴素 贝 叶 斯 是 通过 训练 样本 学 习 联合 概率 分 布 P (X，Y) 。 主 要 是 通过 学 习 先 验 概率 ?(00), 后 1, 2,…,K 和 条 件 概率 Fa 天 大 2…, 学 习 联合 概率 分 布 。 


根据 条 件 独 立 的 假设 ， 可 以 根据 贝 叶 斯 定理 计算 后 验 概率 。 其 中 条 件 独立 假设 是 : 


P(X=x|Y=6)=| |P(X™” =x |Y=6) CS 


1 一 ] 


后 验 概率 为 : 
P(X=x|Y=c)P(Y =c;) 


5 P=xIY=6) PY =6) (4) 


P(Y =c¢, |X =xX)= 


PCY=c)| | ,P(X =x° |Y=6) 
2 :PY =c)f ;P(X =x" Y=6) 
由 于 所 有 ck 都 是 相同 的 ， 所 以 贝 叶 斯 分 类 器 可 以 表示 为 : 


y=argminP(Y =c)= P(Y =c)] [P(X™ =z 17=c) (6) 


P(Y=c, |X =x) (5) 


在 朴素 贝 叶 斯 方法 中 ， 将 特征 分 配 后 验 概率 最 大 的 类 中 ， 等 价 于 期 望 风险 最 小 化 。 


下 面 给 出 朴素 贝 叶 斯 分 类 算法 。 


对 于 训练 样本 = (i )1),(X;, y;), = (Xn, yn)} ? 其 中 Xi 了 是 第 7 小 
样本 的 第 7 本 | 手 征 xX’ EE ai Qa} ?9 i 是 第 7 人 所 征 第 /个 可 能 取 但 ,二 1， 2 “, n,{=1, 
A “， NA 4 三 es CG O 和 完 计 算 先 验 概率 和 条 件 概 从: 


N 
> 71, a | 
N 


N ; 
Dl(X™ =anY=0) (7) 


六 = Cr) 
j=1,2,°°,n,1=1,2,.…,S,,k=1,2,.…,K 


P(Y =c¢,)= 4 


P(X™ = a | 于 = cC， 


接 下 来 对 于 给 定 的 特征 x XX ，…, x* ) 计算 


P(X=x|Y=c)=| [P(X™ =x® |Y=6,) (8) 


1 一 ] 


y=argmmn P(Y = c)[ [P(X™ =xX(i)|Y =c,) (9) 
7 


代码 清单 6-32 ”朴素 贝 叶 斯 代码 示例 








import org.apache.spark.mllib.classification. {NaiveBayes, NaiveBayesModel} 
import org.apache.spark.mllib.util.MLUtils 


// 以 LIBSVM 格式 加 载 数据 
val data = MLUtils.loadLipbSVMFile(sc, "data/mllib/sample libsvm data.txt") 


























// 切 分 训练 集 (60%) 和 训练 集 (40%) 
val Array (training, test) = data.randomSplit (Array (0.6, 0.4)) 























val model = NaiveBayes.train(training, lambda = 1.0, modelType = "multinomial") 
//accuracy: Double = 0.9423076923076923 

val predictionAndLabel = test.map(p => (model.predict (p.features), p.label)) 

val accuracy = 1.0 * predictionAndLabel.filter(x => x. 1 == x. 2) .count() / test.count() 





























// 保存 加 载 模 型 
model.save (sc, "target/tmp/myNaiveBayesModel") 
val sameModel = NaiveBayesModel.load(sc, "target/tmp/myNaiveBayesModel") 








(3) 支持 向 量 机 


支持 向 量 机 (Support Vector Machine，SVM) 是 一 种 对 线性 和 非 线 性 数据 进行 分 类 的 方法 。 简 单 来 讲 ， 它 使 用 一 种 非 线 性 映射 ， 将 原 训练 数据 映射 到 较 高 维度 。 在 新 的 维度 上 ， 搜 索 最 佳 分 割 超 平 
面 。 使 用 足够 高 维 上 、 合 适 的 非 线性 映射 ， 两 个 类 的 数据 总 可 以 被 超 平面 分 开 ， 并 使 用 支持 向 量 和 边缘 发 现 超 平面 。 支 持 向 量 机 的 学 习 策略 是 间隔 最 大 化 ， 形 成 一 个 求解 凸 二 次 规划 (convex quadratic 


programing) 问题 。 


1992 年 ， Vladimir Vapnik、Benrnhard Boser 和 lsabelle Guyon 发 表 了 第 一 篇 支持 向 量 机 的 论文 。 尽 管 SVM 训 练 非 常 慢 ， 但 是 鉴于 其 对 复杂 非 线 性 边界 的 建 模 能 力 ， 结 果 非 常 准确 。 相 比 于 其 他 模 
型 ， 不 太 容易 过 拟 合 。SVM 可 以 用 于 数值 预测 和 分 类 ， 其 已 经 用 于 众多 领域 ,包括 手写 识别 、 对 象 识 别 和 基准 时 间 序 列 预测 检验 。 下 面 介绍 线性 可 分 支持 向 量 机 理论 。 


1) 线性 可 分 支持 向 量 机 


为 了 便于 了 解 SVM， 先 考虑 最 简单 的 情况 一 一 二 元 分 类 问题 ， 其 中 两 个 类 是 线性 可 分 的 。 假 设 输入 空间 与 特征 空间 为 两 个 不 同 的 空间 。 输 入 空间 为 欧 氏 空间 或 者 离散 集合 ， 特 征 空间 为 欧 氏 空间 或 希 尔 
伯 特 空间 。 线 性 可 分 支持 向 量 机 假设 这 两 个 空间 元 素 一 一 对 应 ， 并 映射 输入 空间 的 输入 为 特征 空间 中 的 特征 向 量 。 














假设 给 定 特征 空间 的 数据 集 D 为 (3 1)， (7 )，…， (yy), 其 中 各 和 RE {l,l} 厂 1, 2，…, 克 尺 为 第 i 个 特征 向 量具 有 类 标号 ,可 以 取 +1，-1， 分 别 对 应 类 的 正 例 或 负 例 。%% 攻 成 为 样本 点 。 


学 习 的 目标 是 在 特征 空间 中 寻找 一 个 分 割 超 平面 ， 能 将 实例 划分 为 不 同 的 类 。 分 割 超 平面 对 应 方程 wx+b=0， 由 法 向 量 w 和 截 距 b 决 定 。 考 虑 如 图 6-32 所 示 的 二 元 分 类 问题 ， 图 中 圆圈 代表 正 例 ， 方 杠 
代表 负 例 。 从 图 6-29 中 可 以 很 容易 地 发 现 ， 此 数据 是 线性 可 分 的 。 
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图 6-29 ”二 元 分 类 问题 


给 定 线性 可 分 训练 数据 集 ， 通 过 间隔 最 大 化 或 等 价 求解 相应 的 凸 二 次 规划 问题 学 习 得 到 的 分 割 超 平面 为 : 


w :Xx+pb=0 1 


Jsign(w ‘x+b ) (2) 


我 们 将 这 种 对 线性 数据 进行 分 类 的 方法 称 为 线性 可 分 支持 向 量 机 。 
因为 ， 可 以 画 一 条 直线 ， 将 二 者 切 分 开 。 把 分 割 直线 扩展 到 三 维 ， 我 们 希望 找 出 最 佳 分 割 平面 。 推 广 至 n 维 ， 期 望 为 找到 最 佳 分 割 超 平面 。 
下 面 介绍 函数 间隔 和 几何 间隔 ， 进 一 步 研究 最 大 化 间隔 的 优化 问题 。 


2) 函数 间隔 和 几何 间隔 


特征 空间 中 离 超 平面 近 的 实例 ， 具 有 较 低 的 确信 和 度 。 通 常 以 实例 至 超 平面 的 距离 来 衡量 。 在 超 平面 Ww-x+b=0 确 定 的 情况 下 ，|w-x+b| 可 以 表示 样本 x 距离 超 平面 的 远近 。 同 时 w:x+b 的 符号 与 类 标记 y 是 否 


相同 可 以 判断 分 类 效果 。 所 以 以 y (w:x+b) 度量 分 类 确信 和 度 和 正确 性 ， 称 为 函数 间隔 (functional margin) 。 


对 于 给 定 的 训练 数据 集 T 和 超 平面 (w，b) ， 定 义 超 平面 (w，b) 关于 样本 点 7 的 函数 间隔 为 


yy (Ww: x+D) (3) 


定义 超 平面 (w，b) 关于 训练 数据 集 T 的 函数 间隔 为 : 超 平面 (w，b) 关于 T 中 所 有 样本 点 (*%» 的 函数 间隔 的 最 小 值 ， 即 


/一 min 7 (4) 


j=],…, 


判断 分 类 预测 的 正确 性 和 确信 和 度 可 以 使 用 函数 间隔 。 但 在 选择 分 割 超 平 面 时 存在 浆 端 。 成 比例 改变 w，b， 遂 数 间 隔 变 为 原来 的 2 售 ， 但 是 超 平 面 并 没有 改变 。 因 此 需要 修改 遂 数 间隔 ， 以 满足 需求 。 可 
以 将 分 割 超 平面 的 法 向 量 w 规 范 化 ， 保 证 间隔 是 确定 的 。 在 这 种 情况 下 ， 函 数 间隔 变 成 几何 间隔 (geometric margin) 。 


对 于 给 定 的 训练 数据 集 T 和 超 平面 (w，b) ， 定 义 超 平面 (w，b) 关于 样本 点 驴 .7) 的 几何 间隔 为 
iw iwil 


定义 超 平面 (w，b) 关于 训练 数据 集 T 的 函数 间隔 为 : 超 平面 (w，b) 关于 T 中 所 有 样本 点 (*%» 的 几何 间隔 的 最 小 值 ， 即 


7 = min 7 (6) 


【一 “ 


其 中 ，||w|| 为 w 的 Lz 范 数 。 超 平面 (w，b) 关于 样本 点 '*% 汶 的 几何 间隔 是 实例 点 到 超 平 面 的 带 符号 距离 。 正 确 分 类 时 就 是 实例 点 到 超 平 面 的 距离 。 


从 遂 数 间隔 和 几何 间隔 的 定义 可 以 得 出 : 


i (7 ) 


7 三 一 -一 (8) 


如 果 ||w|j|=1， 则 函数 间隔 与 几何 间隔 相等 。 如 果 超 平面 参数 k 和 b 成 比例 改变 ( 超 平面 固定 ) ， 消 数 间 隔 将 成 比例 改变 ， 而 几何 间隔 不 变 。 
3) 最 大 间隔 


我 们 希望 得 到 具有 最 小 分 类 误差 的 分 割 超 平面 。 但 是 ， 有 可 能 存在 无 限 多 条 分 割 超 平面 ， 如 图 6-30 与 6-31 所 示 。SVM 通 过 搜索 最 大 间隔 超 平面 (Maximum Marginal Hyperplane，MMH) 获取 最 优 


由 于 几何 间隔 最 大 的 分 割 超 平面 是 唯一 的 。 这 意味 着 ， 可 以 以 充分 大 的 确定 度 对 训练 数据 分 类 ， 同 时 保证 有 足够 大 的 确信 度 划分 离 分 割 超 平面 最 近 的 点 。 








图 6-31 大 边缘 


对 于 间隔 可 以 说 从 超 平面 到 其 边缘 的 一 个 侧面 的 最 短 距 离 等 于 从 该 超 平面 到 其 边缘 的 另 一 个 侧面 的 最 短 距 离 ， 其 中 边缘 的 “侧面 ”平行 于 超 平面 。 在 实际 中 ， 这 个 距离 是 从 M MH 到 两 个 类 最 近 的 实例 


的 最 短 距 离 。 


将 搜索 几何 间隔 最 大 的 超 平面 问题 转换 为 带 约 束 的 最 优化 问题 。 


max 7 
wb 
Ww b . 
yo—x+oeo—— | 之 7y,i=1,2,.…,n 
iw wl 


函数 间隔 ?的 取 值 并 不 影响 最 优化 问题 的 求解 。 假 如 将 k 和 b 按 比例 改变 为 kw 和 kb， 函 数 间隔 变 为 了 。 并 不 影响 上 述 最 优化 问题 。 最 大 边缘 解 可 以 根据 下 式 求 出 : 


| 天 取 


委 忆 


(10) 


(11) 


( 12) 


dais NaX min[y, (WwW, *X, +b)] (13) 
"5 el 


和 最 小 化 册 下 


等 价 ， 于 是 得 到 下 面 线性 可 分 支持 向 量 机 学 习 的 最 优化 





0 二 、 姑 为 最 1 
直接 求解 这 个 问题 非常 复杂 ， 需 要 一 个 等 价 的 更 容易 求解 的 最 优化 问题 。 根 据 之 前 叙述 的 函数 间隔 的 性 质 ， 可 以 取 人 





2 
.wil 
TI 

wb 


(14) 


st. y(w:x,+b)-—1 写 0,i=1,2,.…,n (15) 


这 是 一 个 凸 二 次 优化 问题 ， 引 | 入 7 是 为 了 后 续 计算 方便 ， 


mm J(w) ( 16 ) 
st. g(xX)0,i=1,2,.…,k (17) 
st. h(x)=0,i=1,2,.…,/ (18) 


其 中 ， 目 标 函 数 f (w) 和 约束 函数 80") 部 是 & 上 的 连续 可 微 的 凸 函数 ， 约 束 函 数 “") 是 ”上 的 仿 射 函数 。 


当 目 标 函 数 f (w) 是 二 次 函数 并 且 约 束 函 数 gi (w) 是 仿 射 函数 时 ， 上 述 凸 优化 问题 为 凸 二 次 规划 问题 。 


假如 得 到 了 约束 问题 (14) 和 (15) 的 解 w*，b*， 就 可 以 得 到 最 大 间隔 超 平面 和 分 类 决策 函数 。 








对 于 yi;=+1 的 点 ， 支 持 向 量 在 超 平面 
上 ， 对 于 yi=-1 的 点 ， 支 持 向 量 在 超 平面 


 X 十 DO= 一 





上 ， 如 图 6-32 所 示 ， 在 化、 化 上 的 点 就 是 支持 向 量 。 


太 、 为 间隔 边界 ， 并 且 是 平行 的 ， 其 间 没 有 样本 点 ， 最 大 间隔 超 平面 在 间隔 边界 中 间 且 与 之 平行 。 它 们 之 间 的 宽度 称 为 间隔 。 间 隔 依 赖 于 分 割 超 平 面 的 法 向 量 w， 其 值 为 "il。 








图 6-32 ”支持 向 量 


支持 向 量 决定 间隔 超 平面 ， 样 本 点 中 的 其 他 实例 没有 此 作用 。 如 果 移动 支持 向 量 ， 上 述 最 优化 问题 的 所 得 解 将 改变 ;但 是 如 果 移动 间隔 边界 的 其 他 实例 ， 不 影响 最 终结 果 。 正 是 由 于 支持 向 量 在 确定 分 
割 超 平面 中 起 着 决定 性 的 作用 ， 所 以 将 这 种 分 类 模型 称 为 支持 向 量 机 。 


4) 对 偶 算 法 


为 了 求解 线性 可 分 支持 向 量 机 的 最 优化 问题 ， 根 据 拉 格 朗 日 函数 性 质 ， 通 过 求解 其 对 偶 问题 得 到 原始 问题 的 最 优 解 ， 这 就 是 线性 可 分 支持 向 量 机 的 对 偶 算 法 。 这 样 做 的 原因 是 ， 对 偶 问 题 更 易于 求解 
其 次 是 自然 引入 核 函 数 ， 进 而 推广 到 非 线 性 分 类 。 


首先 ， 应 用 拉 格 朗 日 函数 。 对 每 个 约束 不 等 式 (15) 引入 拉 格 明日 乘 子 ai>0，i=1，2，n， 从 而 得 到 下 面 的 拉 格 朗 日 函数 。 


] n n 
LOw,b,02)== wll -D0y,Wwx; +b)+ >,0,) (19) 
i=] i=] 


其 中 4 %1，%，…,0,) ,根据 拉 格 朗 日 的 对 侦 性 ， 原 始 问题 的 对 侦 问题 是 极 大 极 小 问题 。 


max min L(w,b,a) 


全 w.b 


先 求 L(w，b，a) 对 w，b 的 极 小 ， 再 求 对 c 的 极 大 。 令 L (w，b，a) 关于 w 和 b 的 导数 为 0。 


V,ZOwpb,o)=m->》cwyo =0 


1 一 ] 


ViZOwpa)= >》wy =0 


1 一 ] 
w= > ayx;=0 (20 ) 
i=1 


rn 
> ‘aiy; =0 (21) 
| 

使 用 这 两 个 条 件 从 L (w，b，oal) 中 消除 w 和 b， 得 到 最 大 间隔 问题 的 对 偶 表 示 。 


Lowb,a)=7 ac Qiy Oo) 一 y (ya VX)) + 


wi i=] 7=] 


-ac py (vx) + Da 


pr i=l 


( 22) 


minL(w,b,0) = Daa iy ;(%, + Do C29) 


[ 
w,b 2 订 广 


求 “* ”关于 a 的 极 大 ， 就 是 对 偶 问 题 。 


max -ao JJOG 0)+ Yo 


ps 


Ss. -> > y,=0 


pr 


el 


( 24) 


将 约束 问题 (24) 的 目标 函数 改 为 求 极 小 ， 就 得 到 下 面 等 价 的 对 偶 最 优 问题 


max 3 aa Diyi(X Xi)— 3 


2 汪 福 


Sf -> a= 0 


2 访 福 


Q, 宇 0,i=1,2, 


(25 ) 


这 里 核 函 数 被 定义 为 人 7 。 
对 偶 问题 使 得 模型 可 以 使 用 核 函 数 重新 表示 ， 因 此 最 大 间隔 分 类 器 可 以 高 效 地 用 于 维 数 超过 数据 点 数 的 特征 空间 。 很 明显 核 函 数 汪 ”光正 定 ， 确 保 了 拉 格 朗 日 函数 有 上 界 。 


为 了 使 用 训练 过 的 模型 ,计算 (2) 中 定义 的 f (x) 符号。 使 用 (20) 消去 w,，f (x) 可 以 由 拉 格 朗 日 乘 子 ai 和 核 函 数 表 示 ， 即 


JoD = 之 onC0 x,)+b (26 ) 


满足 KKT 条 件 


0, i=1, 2.…， 11 (27) 
yi(w :xitb)-1 2 0, i=1, 2,*…,n (D8) 
oO ED 之 0, 三 1, 2,……,n (29 ) 


因此 ， 对 于 每 个 样本 点 ， 要 么 “0 要 和 ww so 任何 使 得 ai=0 的 样本 点 都 不 会 出 现在 (26) 中 ， 满足 Qi > 0 的 点 称 为 支持 向 量 。 因 此 对 新 数据 点 的 预测 没有 作用 。 由 于 支持 向 量 满足 *…*1. 因 此 它们 对 
应 于 特征 空间 中 位 于 最 大 间隔 超 平面 内 的 点 。 一 点 模型 训练 完毕 ， 相 当 多 的 数据 点 都 可 以 被 丢弃 ， 只 保留 支持 向 量 。 


解决 凸 优化 问题 ， 找 到 a 值 之 后 ， 根 据 x=0， 要 么 ww … x+2)=1, 可 以 确定 参数 阅 值 b 的 值 。 
Rn 
= y;— 》_ 0 y,(%, | ( 30 ) 
i=] 


对 于 线性 可 分 的 问题 ， 上 述 线性 可 分 支持 向 量 机 的 学 习 算法 是 完美 的 。 但 实际 中 往往 不 是 线性 可 分 的 ， 即 在 样本 中 出 现 噪音 
另外 ， 学 习 后 的 SVM 的 复杂 度 是 由 支持 向 量 数 决定 的 ， 而 不 是 数据 维度 。 因 此 与 其 他 模型 相 比 ，SVM 不 容易 过 拟 合 。 具 有 少量 支持 向 量 的 SVM 可 以 具有 很 好 的 泛 化 性 能 ， 即 便 数 据 维度 很 高 。 代 码 清 
单 6-33 是 SVM 代码 示例 。 


代码 清单 6-33 SVM 代码 示例 


import org.apache.spark.mllib.classification. {SVMModel, SVMWithSsGD} 
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics 
import org.apache.spark.mllib.util.MLUtils 

import org.apache.spark.mllib.optimization.LlUpdater 















































// Load training data in LIBSVM format. 
val data = MLUtils.loadLipbSsVMFile(sc, "data/mllib/sample libsvm data.txt") 

















// Split data into training (60%) andq test (40%). 


val splits = data.randomSplit (Array (0.6, 0.4), seed = 111) 
val training = splits (0) .cache () 
val test = splits(1) 


// 运行 训练 算法 建立 模型 

// SVMWithsGD.train() 默认 使 用 L2 正 则 和 1 .0 的 正则 系数 
val svmAlg = new SVMWNithSGD () 
svmAlg.optimizer.setNumIterations (200) .setRegParam(0.1) .setUpdater (new LlUpdater) 
val model = svmAlg.run (training) 


// 清除 默认 阔 值 


model.clearThreshold() 


// 计算 测试 集 原始 得 分 

val scoreAndLabels = test.map { point => 
Val Score = model .predict (point.features) 
(score, point.1label) 


} 
// 获取 评价 指标 


val metrics = new BinaryClassificationMetrics (scoreAndLabels) 
val auROC = metrics.areaUnderRoCc () 








































































































printlin("Area under ROC = " + auROC) 


// 保存 加 载 模型 
model.save (sc, "target/tmp/scalaSVMWithSGDModel") 
val sameModel = SVMModel.load (sc, "target/tmp/scalaSVMWithSGDModel") 





4. 聚 类 


关 


在 之 前 分 类 部 分 提 到 的 典型 无 监督 学 习 算 法 就 是 聚 类 ， 因 为 它 不 依赖 已 和 有 既定 的 先 验 知识 。 聚 类 就 是 将 一 群 物理 对 象 或 者 抽象 对 象 划分 成 相似 的 对 象 类 的 过 程 。 其 中 类 簇 是 数据 对 象 的 集合 ， 类 艇 中 的 
所 有 对 象 相似 ， 而 类 簇 之 间 的 对 象 之 间 差 异 较 大 。 


聚 类 除了 可 以 用 于 数据 分 割 外 ， 还 可 以 用 于 检测 离 群 点 。 在 一 般 情 况 下 ， 聚 类 可 以 分 为 以 下 几 类 : 划分 聚 类 (partitioning cluster) 、 层 次 聚 类 (hierarchical cluster) 、 密 度 聚 类 (density 


cluster) 、 基 于 网 格 聚 类 (grid-based cluster) 、 基 于 模型 聚 类 (model-based cluster) 。 


K-means 是 一 种 基于 距离 的 迭代 式 算法 。 它 将 n 个 观测 样本 划分 到 k 个 聚 类 中 ， 以 使 每 个 观测 样本 距离 它 所 在 的 聚 类 质心 是 最 近 的 。 其 中 距离 的 计算 可 以 是 欧 氏 距离 、 曼 哈 顿 距离 、Jarcard 相 似 度 或 者 
其 他 距离 公式 。 


要 将 每 个 观测 样本 划分 到 距离 最 近 的 聚 类 中 心 ， 需 要 找到 这 些 聚 类 中 心 的 具体 位 置 ， 但 为 了 确定 聚 类 中 心 的 位 置 ， 需 要 知道 这 个 类 包含 哪些 观测 样本 。 这 是 一 个 NP-Hard 问 题 。 
可 以 通过 局 发 式 的 算法 近似 解决 这 个 问题 。 首 先 降低 问题 的 难度 ， 找 到 多 个 局 部 最 优 方案 ， 然 后 通过 评 佑 聚 类 结果 ， 选 择 评 佑 最 优 的 聚 类 结果 作为 聚 类 的 结果 。 


K-means 算 法 以 k 为 参数 ， 把 n 个 对 象 分 为 k 个 复 ， 使 复 内 具有 高 相似 度 ， 簇 间 具 有 低 相似 度 。K-means 算 法 处 理 过 程 大 致 如 下 : 首先 随机 选取 k 个 对 象 ， 每 个 对 象 代 表 了 一 个 一 个 艇 的 中 心 ， 对 剩余 的 
每 个 样本 ， 通 过 计算 与 复 心 的 距离 ， 并 将 其 赋予 相似 度 最 高 的 簇 ， 然 后 重新 计算 每 个 复 的 平均 值 。 不 断 重复 这 个 过 程 ， 直 到 簇 心 不 再 变化 ， 或 者 满足 收敛 准则 。 收 敛 准则 通常 采用 平常 误差 准则 ， 其 定义 
为 : 


2 


p—m, 





i=] pcw, 


这 里 E 是 训练 样本 所 有 实例 平方 误差 总 和 ，p 是 样本 点 ， 思 是 做 C; 的 平均 值 。 


K-means 是 解决 聚 类 问题 的 经 典 算法 ， 对 处 理 大 数据 集 ， 依 然 可 以 保持 可 伸缩 性 和 高 效率 。 特 别 是 当 复 接近 高 斯 分 布 时 ， 效 果 较 好 。 不 过 算法 只 能 找到 局 部 最 优 解 ， 并 且 非 常 依赖 初始 篮 心 的 选取 。 可 
以 使 用 不 同 的 随机 复 心 运行 算法 ， 评 估 模 型， 选择 模型 最 优 的 方案 。 同 时 K 值 的 选取 也 是 算法 效果 优 劣 的 影响 因素 之 一 ， 选 取 一 个 序列 的 K， 对 每 个 K 运 行 算 法 ， 选 择 评价 最 优 的 K。 不 过 这 有 一 个 问题 ， 随 着 
k 的 增 大 ， 聚 类 中 心 也 会 越 多 ， 这 时 每 个 样本 与 簇 心 的 距离 平方 和 就 会 越 小 。 最 后 一 点 就 是 ，K-means 对 离 群 点 和 噪音 非常 敏感 。K-means 代 码 示 例如 代码 清单 6-34 所 示 。 


代码 清单 6-34 K-means 代 码 示例 





import org.apache.spark.mllib.clustering. {KMeans, KMeansModel} 
import org.apache.spark.mllib.linalg.Vectors 


// 加 载 切 分 数据 
val data = sc.textFile("data/mllib/kmeans data.txt") 
val parsedData = data.map(s => Vectors.dense(s.split(' ') .map( .toDouble))).cache() 


// 使 用 KMeans 肾 类 ,类 艇 为 2 

val numClusters = 2 

val numIterations = 20 

val clusters = KMeans .train (parsedData, numClusters, numlterations) 


// 通过 计算 平方 误差 和 评估 簇 

// WSSSE: Double = 0.11999999999994547 

val WSSSE = clusters.computeCost (parsedData) 
printlin("Within Set Sum of Squared Errors = " + WSSSE 


// 保存 加 载 模型 
clusters .save (sc, "target/org/apache/spark/KMeansExample/KMeansModel1") 
val sameModel = KMeansModel.1load(sc, "target/org/apache/spark/KMeansExample/KMeansModel") 
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5. 降 维 


数据 降 维 是 指 通过 线性 或 者 非 线 性 映射 将 高 维 数据 转换 为 低 维 数据 。 高 维 数 据 中 包含 大 量 的 元 余 信 息 以 及 隐藏 重要 关系 的 特征 ， 降 维 的 目的 是 在 保持 原始 数据 的 分 类 或 者 决策 能 力 的 前 提 下 ， 消 除 元 


余 ， 减 少 处 理 的 数据 量 ， 因 而 被 广泛 应 用 于 机 器 学 习 相关 的 领域 。 


~ 


随 着 计算 机 的 发 展 ， 人 们 采集 到 的 数据 包含 大 量 的 特征 ， 使 得 数据 的 维度 可 能 达到 几 干 或 者 几 万 维 。 如 果 直 接 使 用 原始 数据 进行 模型 训练 ， 会 带 来 两 个 环 手 的 问题 : 


1) 在 低 维 空间 具有 良好 性 能 的 算法 ， 在 高 维 中 不 可 行 。 


2) 在 给 定 样本 容量 的 前 提 下 ， 特 征 维度 的 增加 使 得 估计 变 得 困难 ， 从 而 影响 模型 的 泛 化 能 力 ， 导 致 过 拟 合 。 为 了 避免 这 种 情况 发 生 ， 样 本 容量 必须 随 着 维度 的 增加 而 增加 ， 这 就 是 所 谓 的 “维度 灾 
难 ”。 例 如 KDD Cup 2009 在 预测 客户 流失 量 中 使 用 的 数据 集 维度 达到 了 1500 维 。 


在 大 数据 时 代 ， 数 据 越 多 越 好 已 经 成 为 公理 。 正 如 前 面 提 到 的 数据 集 包 含 大 量 见 余 时 ， 会 严重 影响 模型 的 性 能 。 在 此 基础 上 ， 移 除 信息 量 较 少 甚至 无 用 的 信息 可 能 会 帮助 我 们 构建 更 具 扩展 性 、 通 用 性 


的 模型 。 


在 实际 中 ， 常 用 的 数据 降 维 方法 包括 缺失 值 比率 、 随 机 森林 /组 合 树 、 主 成 分 分 析 、 因 子 分 析 、 聚 类 、 相 关 性 分 析 等 。 下 面 我 们 主要 介绍 奇异 值 分 解 和 主 成 分 分 析 ， 主 成 分 分 析 有 两 种 实现 方法 : @ 通 过 
特征 值 分 解 实现 ;@ 利 用 奇异 值 分 解 实现 。 


(1) 奇异 值 分 解 
特征 值 分 解 和 奇异 值 分 解 的 目的 相同 ， 都 是 从 矩 阵 中 提取 重要 的 特征 。 这 里 先 介绍 特征 值 分 解 。 


如 果 一 个 向 量 v 是 一 个 方 阵 A 的 特征 向 量 ， 那 么 有 


4V= 一 4 (1) 


其 中 是 和 矩阵 A 的 特征 值 ， 和 矩阵 的 特征 向 量 是 正 交 的 。 特 征 值 分 解 是 将 一 个 和 矩阵 分 解 为 如 下 形式 : 


4=O2O (2 ) 
这 里 ，Q 是 由 矩阵 A 的 特征 向 量 构成 的 矩阵 ，2 是 一 个 对 角 和 矩阵 ， 对 角 线 上 的 元 素 就 是 特征 值 。 在 线性 代数 中 定义 的 矩阵 与 向 量 的 乘积 是 线性 映射 。 如 果 矩 阵 是 对 称 的 ， 对 角 线 元 素 的 值 大 于 1 代表 对 应 的 


特征 拉 长 ， 反 之 ， 则 缩短 ; 如 果 和 矩 阵 不 是 对 称 的 ， 对 相应 特征 做 拉 伸 变换 。 


分 解 得 到 的 次 6 阵 中 的 对 角 线 元 素 是 从 大 到 小 排列 的 ， 这 些 特 征 值 对 应 的 特征 向 量 描述 矩阵 的 变化 方向 。 如 果 和 矩阵 是 高 维 的 ， 那 么 通过 特征 值 分 解 得 到 的 前 N 个 特征 向 量 ， 也 就 得 到 了 这 个 矩阵 最 主要 的 
N 个 变化 方向 。 但 是 特征 值 分 解 有 一 个 浆 端 ， 就 是 矩阵 必须 是 方 阵 。 


下 面 探讨 奇异 值 分 解 。 对 于 一 个 方 阵 来 说 ， 用 特征 值 分 解 提 取 特 征 是 不 错 的 方法 。 但 在 实际 中 很 少 遇 见 。 对 于 非 方 阵 的 矩阵 分 解 ， 可 以 使 用 奇异 值 分 解 : 


4 = > (3) 


-mxn — mxn Px 
mn 
这 里 ，U 中 的 向 量 称 为 左 奇异 向 量 ， 并 且 是 正 交 的 ，z 除 了 对 角 线 元 素 都 是 0 外 ， 对 角 线 上 的 元 素 是 奇异 值 。 


通过 特征 值 的 方式 来 求解 奇异 值 。AxAT 得 到 一 个 方 阵 ， 这 个 方 阵 的 特征 值 为 : 


(A* AT)v, =4v (4) 





1 = 一 一 (6 ) 


其 中 v 是 右 奇异 向 量 ，o 是 奇异 值 ，H 是 左 奇异 向 量 。 奇 异 值 和 特征 值 类 似 ， 都 是 从 大 到 | 小 排列 的 ， 很 多 情况 下 很 少 的 奇异 值 就 占 了 奇异 值 总 和 的 99% 以 上 。 也 就 是 说 我 们 可 以 将 占 奇 异 值 之 和 99% 的 奇 
异 值 近似 矩 阵 表 示 如 下 : 


A TI >, (7) 


这 样 得 到 了 和 矩阵 A 的 一 个 近似 ，" 与 n 越 接近 ， 得 到 的 结果 越 精确 。 


代码 清单 6-35 ”奇异 值 分 解 代 码 示 例 





import org.apache.spark.mllib.linalg.Matrix 

import org.apache.spark.mllib.linalg.SingularValueDecomposition 
import org.apache.spark.mllib.linalg.Vector 

import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.linalg.distributed.RowMatrix 


























val data = Array( 
Vectors .Sparse (5 
Vectors .qdqense (2.0, 





Sed( (Ll; 1.0) Pe 
O07 3507 4.07. 93007 





避 


Vectors.dense(4.0, 0.0, 0.0, 6.0, 7.0)) 


val dataRDD = sc.parallelize (data, 2) 





val mat: RowMatrix = new RowMatrix (dataRDD) 


// 计算 前 5 个 奇异 值 和 相应 的 奇异 向 量 
val svd: SingularValueDecomposition [RowMatrix, Matrix] = mat.computeSVvD(5, computeU = true) 
val U: RowMatrix = svd.U // U 是 一 个 RowMatrix 
val s: Vector = svd.s // 奇异 值 被 存储 在 本 地 稠密 向 量 中 
val V: Matrix = svd.V // Vv 是 一 个 本 地 稠密 向 量 


























(2) 主 成 分 分 析 


主 成 分 分 析 (Principal Component Analysis，PCA) 是 典型 的 线性 降 维 方法 ， 目 标 是 通过 某 种 线性 投影 ， 将 高 维 空间 数据 映射 到 低 维 空间 表示 ， 并 期 望 在 投影 的 维度 上 方差 最 大 ， 从 而 减少 数据 维 


如 果 将 所 有 的 点 映射 到 一 起 ， 那 么 将 丢失 所 有 信息 ， 如 果 映 射 后 的 方差 最 大 ， 那 么 数据 会 很 分 散 ， 保 留 的 数据 也 具有 更 多 的 信息 。 可 以 证 明 ，PCA 是 丢失 原 数 据 信息 最 少 的 线性 降 维 算法 。 


假定 n 维 向 量 b 为 目标 子 空间 的 一 个 映射 向 量 ， 点 x 在 上 的 投影 为 xrh， 最 大 化 点 x 在 向 量 u 上 的 投影 的 方差 有 : 


] m 7 < ] mm 7 7 7 | I 7 
pm X. 一 一 一 XX, 《 二 X, 好 6 ) 
一 py 1) = 一 Dh 4= 人 | A 


1 m 


这 里 ，m 是 数据 特征 的 个 数 ， 人 是 样本 协 方差 矩阵 。 可 以 将 求 最 大 化 投影 方差 看 作 是 下 列 优化 问题 


max LW 》 13 nh =J (9) 


使 用 拉 格 朗 日 乘 子 : 


TW ( 10) 


L(4,4)= >》H=-40 一 》H= ML (11) 


41 三 人 三 4 


从 上 式 可 以 看 出 ，PCA 的 实质 就 是 要 求 出 协 方差 矩阵 的 特征 值 。 由 于 协 方差 撼 阵 是 正定 的 ， 因 此 其 n 个 特征 值 经 过 从 大 到 小 排序 有 记 二 之 各 二 0 如 果 特 征 值 很 小 甚至 为 0， 可 以 不 用 考虑 。 


求 出 和 就 可 以 确定 特征 向 量 Hi。 


> > >4、 


通过 设 定 累积 贡献 率 的 阐 值 选取 主 成 分 的 数量 。 4 4 “… 心 称 为 前 K 个 主 成 分 ， 协 方差 矩阵 从 大 到 小 排序 后 的 特征 值 ” 2 为 第 个 主 成 ;的 贡献 率 ， 称 ”人 为 前 k 个 主 成 分 的 


累计 贡献 率 ， 累 计 贡 献 率 代表 了 这 k 个 主 成 分 能 从 多 大 程度 上 代表 原 数 据 。 当 k 值 确定 了 ， 对 xj 进行 线性 变换 求 出 y。 


和 | ER (12 ) 


这 里 ，y 的 维度 是 k 小 于 x 的 维度 n。 

主 成 分 分 析 的 主要 作用 包括 三 点 : 

1) 数据 压缩 : 将 高 维 数据 压缩 为 二 维 或 三 维 ， 可 以 对 数据 进行 可 视 化 ， 帮 助 决策 者 清晰 、 直 观 地 把 握 数 据 反映 的 内 容 。 
2) 降 维 : 这 也 是 主 成 分 分 析 的 主要 作用 ， 减 少 计算 大 规模 数据 消耗 大 量 资源 ， 通 过 PCA 降 低 计 算 复杂 度 避 免 过 拟 合 现象 。 
3) 降 噪 : 通过 PCA 可 以 找到 能 够 代表 主体 的 主要 特征 ， 避 免 了 不 相关 或 者 元 余 特 征 的 干扰 。 


代码 清单 6-36 ” 主 成 分 分 析 代 码 示例 


import org.apache.spark.mllib.linalg.Matrix 
import org.apache.spark.mllib.linalg.Vectors 























import org.apache.spark.mllib.linalg.distributed.RowMatrix 








val data = Array( 
Vectors.sparsel( 
Vectors .dense (2 
Vectors .qense (4 


Dv 
7 
EU 





val dataRDD = sc.parallelize (data, 2) 








val mat: RowMatrix = new RowMatrix (dataRDD) 


// 计算 前 4 个 主 成 分 - 

// 主 成 分 被 存储 在 一 个 本 地 稠密 和 矩阵 
val pc: Matrix = mat.computePrincipalComponents (4) 
// 由 前 4 个 主 成 分 投影 到 行 张 成 的 线性 空 | 


过 
val projected: RowMatrix = mat .mu 






































ltiply (pc) 


6.4.4 MLIib 概 述 
随 着 互联 网 产业 的 迅猛 发 展 ， 产 生 的 数据 量 越 来 越 大 。 伴 随 着 数据 挖掘 和 机 器 学 习 概 念 的 回 温 ， 基 于 分 布 式 的 机 器 学 习 的 快速 砾 展 自然 也 显得 顺理成章 。 与 此 同时 ，spark 自 身 的 特性 决定 了 它 在 机 器 
学 习 领 域 具有 独特 的 优势 。 


1) 机 器 学 习 算 法 都 包含 迭代 计算 的 步骤 。 一 般 而 言 ， 机 器 学 习 的 计算 需要 在 多 次 迭代 后 误差 足够 小 或 者 足够 收敛 才 会 停止 。 而 和 返 代 计算 时 如 果 使 用 Hadoop 的 MapReduce 计 算 框架 ， 每 次 计算 都 要 执 
行 读 / 写 磁 盘 以 及 启动 任务 等 工作 ， 这 会 导致 比较 大 的 /MO 及 其 他 资源 消耗 。 而 前 面 多 次 强调 的 Spark 基 于 内 存 的 计算 模型 天 生 擅 长 迭代 计算 ， 除 了 在 必要 时 进行 磁盘 读 写 和 网 络 操作 之 外 ， 其 他 多 个 步骤 计 
算 都 可 以 直接 在 内 存 中 完成 。 因 此 Spark 是 机 器 学 习 运 算 的 理想 平台 。 


2) 从 通信 的 角度 讲 ， 如 果 使 用 Hadoop 的 MapReduce 计 算 框 架 ，JobTracker 和 TaskTracker 之 间 由 于 是 通过 heartbeat 的 方式 来 进行 通信 和 传递 数据 ， 所 以 会 导致 非常 慢 的 执行 速度 ， 而 Spark 具 有 出 
色 、 高 效 的 Akka 和 Netty 通 信 系统 ， 通 信 效 率 极 高 。 


MLlib (Machine Learnig lib) 是 Spark 对 机 器 学 习 常 用 算法 的 实现 库 。M Llib 的 设计 初衷 是 让 机 器 学 习 实 践 变 得 容易 ， 可 剪裁 。MLlib 包 含 常 见 的 学 习 算法 及 工具 ， 如 分 类 、 回 归 、 聚 类 、 协 同 过 滤 、 
降 维 及 底层 优化 及 高 层 pipeline APl， 还 包括 相关 的 测试 和 数据 生成 器 。MLlib 从 Spark1.2 版 之 后 被 分 为 两 个 包 ， 分别 是 : 


spatk.mllib 包 含 基于 RDD 的 原始 API。 
“ spatk.ml 提 供 基 于 DataFtames 的 高 层 API， 用 以 构建 ML pipeline。 


MLIib 目 前 支持 分 类 、 回 归 、 聚 类 和 协同 过 滤 及 降 维 等 常见 机 器 学 习 问 题 。 在 机 器 学 习 的 实际 应 用 中 ， 推 荐 使 用 spark.ml， 因 为 基于 DataFrame 的 API 会 更 加 灵活 丰富 。 另 外 ， 随 着 spark.mI 的 继续 开 
Spark 开 发 团队 也 会 继续 文 持 spark.mllib， 因 此 spark.mllib 的 用 户 也 无 须 担 心 。 


涉 


为 了 将 多 个 机 器 学 习 算法 容易 地 组 成 一 个 流水 线 (pipeline) ，Spark ML 将 API 做 了 标准 化 。 下 面 简要 介绍 Spark 机 器 学 习 库 中 的 重要 基本 概念 。 

* DataFrame 

Spark ML 使 用 了 SparkSQL 中 的 DataFrame 作 为 ML 数据 集 。 它 可 以 保存 多 种 数据 类 型 的 数据 。 一 个 DataFrame 可 以 使 用 不 同 的 列 来 存储 文本 、 特 征 向 量 、 真 实 值 及 预测 值 。 
* Transformer 

能 够 将 一 个 DataFrame 变 换 为 男 一 个 DataFrame 的 算法 。 一 个 机 器 学 习 模 型 其 实 也 算 一 个 Transformer， 它 将 包含 特征 的 DataFrame 变 换 为 包含 预测 值 的 DataFrame。 
“ Estimator 

能 够 拟 合 DataFrame 以 产生 Transformer 的 算法 。 简 单 来 讲 ， 一 个 学 习 算 法 就 是 一 个 Estimator， 它 可 以 在 一 个 DataFrame 上 训练 出 一 个 模型 。 

. Pipeline 

Pipeline 将 多 个 Transformers 和 Estimators 组 合 在 一 起 ， 形 成 特定 的 工作 流 。 

* Parameter 

所 有 Transformer 和 Estimator 可 以 通过 一 个 通用 的 APl 来 指定 参数 。 


从 这 几 个 基本 概念 不 难看 出 ，spark.mI 把 整个 机 器 学 习 的 过 程 抽 象 成 流水 线 Pipeline， 一 个 Pipeline 由 多 个 Stage 组 成 ， 每 个 Stage 可 以 是 Transformer 或 Estimator。 以 前 机 器 学 习 工程 师 要 伦 费 大 量 时 
间 在 training model 之 前 的 feature 的 抽取 、 转 换 等 准备 工作 ， 现 在 使 用 spark.ml 提 供 的 多 个 Transformer， 可 以 极 大 地 改进 这 类 工作 的 效率 。 在 Spark1.5 版 本 之 后 ，Spark 具 备 了 多 了 feature 
transformer。 其 中 CountVectorizer、Discrete Cosine Transformation、MinMaxScaler、NGram、PCA、RFormula、StopWordsRemover 和 Vectorslicer 都 是 Spark1.5 版 本 新 添加 的 ， 读 者 可 以 自行 
查阅 其 中 新 加 的 内 容 。 


因为 MLlib 也 基于 RDD， 因 此 天 生 就 可 以 与 Spark SQL、GraphX、Spark Streaming 无 颖 集成 ， 以 RDD 为 基石 ，4 个 子 框架 可 联合 构建 大 数据 计算 系统 。 其 中 MLlib 是 MLBase 的 一 部 分 ，MLBase 分 为 
四 部 分 : MLlib、MLI、ML Optimizer 和 MLRuntime。 


ML Optimizer 会 选择 它 认为 最 适合 的 已 经 在 内 部 实现 好 了 的 机 器 学 习 算 法 和 相关 参数 ， 来 处 理 用 户 输入 的 数据 ， 并 返回 模型 或 其 他 帮助 分 析 的 结果 ; MLlib 是 Spark 实现 一 些 常见 的 机 器 学 习 算 法 和 实 
用 程序 ， 包 括 分 类 、 回 归 、 聚 类 、 协 同 过 滤 、 降 维 以 及 底层 优化 ， 该 算法 可 以 扩充 ; MLRuntime 基 于 Spark 计 算 框 架 ， 将 Spark 的 分 布 式 计 算 应 用 到 机 器 学 习 领 域 。 


6.4.5 ”MLlib 架 构 


MLlib 的 整体 架构 如 图 6-33 所 示 : 
下 面 简 要 介绍 图 6-33 中 几 个 重要 的 组 成 部 分 。 
1) spark.ml 是 基于 DataFrame 的 高 层 APl。 


2) spark.mllib 是 基于 RDD 的 基本 算法 实现 。 


spark.ml 









spark.mllib 











瓜 层 算法 库 
接口 层 


瓜 层 算法 库 实现 





图 6-33 MIlib 的 整体 架构 


3) 评价 指标 : 评价 指标 是 机 器 学 习 任务 中 非常 重要 的 一 环 。 不 同 的 机 器 学 习 任务 有 不 同 的 评价 指标 ， 同 一 种 机 器 学 习 任 务 也 有 不 同 的 评价 指标 ， 每 个 指标 的 着 重点 不 同 ， 如 分 类 (classification) 、 回 
归 (regression) 、 排 序 (ranking) 、 聚 类 (clustering) 、 热 门 主题 模型 (topic modeling) 、 推 荐 (recommendation) 等 ， 并 且 很 多 指标 可 以 对 多 种 不 同 的 机 器 学 习 模 型 进行 评价 ， 如 精确 率 -召回 
率 (precision-recall) ， 可 以 用 在 分 类 、 推 荐 、 排 序 等 中 。 下 面 给 出 一 些 常见 的 评价 指标 概念 性 描述 : 


* AUC (Areaunder the Curve) 即 曲 线 下 的 面积 。 这 条 曲线 便 是 ROC (Receivet Opetating Charactetistic) 曲线 。 
“ 回归 模型 中 最 常用 的 评价 模型 便 是 RMSE (toot mean square etror) ， 即 平方 根 误差 。 
精确 率 (precision) : 分 类 正确 的 正 样 本 数 占 分 类 器 所 有 正 样本 数 的 比例 。 
“ 召回 率 (tecall) : 分 类 正确 的 正 样本 数 占 正 样本 数 的 比例 。 
. F1-Score: 精确 率 与 召回 率 的 调和 平均 值 ， 它 的 值 更 接近 于 Precision 与 Recall 中 较 小 的 值 。 
4) 底层 算法 库 接口 层 : 该 层 主要 是 用 scala 实 现 的 数值 处 理 库 ， 提 供 向 量 、 和 矩阵 运 算 APl。 其 内 部 通过 调用 java 接 口 调用 底层 算法 库 实现 。 


5) 底层 算法 库 实现 : 具体 的 算法 包 实 现 。 


6.4.6 ”MLlib 使 用 实例 一 一 电影 推荐 


下 面 介绍 如 何 使 用 MLlib 和 协同 过 滤 ， 来 实现 个 性 化 的 电影 推荐 功能 。 本 示例 参考 了 伯克利 的 经 典 机 器 学 习 案 例 ， 其 中 所 采用 的 数据 集 来 自 gouplens 网 
站 http://grouplens.org/datasets/movielens/， 读 者 感 兴趣 的 话 可 以 自行 下 载 练习 。 该 数据 集 为 一 组 从 20 世 纪 90 年 代 末 到 21 世 纪 初 由 MovieLens 用 户 提 供 的 电影 评分 数据 ， 这 些 数据 包括 电影 评分 、 电 影 
元 数据 (风格 类 型 和 年 代 ) 以 及 关于 用 户 的 信息 数据 (年 龄 、 邮 编 、 性 别 和 职业 等 ) 。 数 据 提 供 方 根据 不 同 需求 提供 了 不 同 大 小 的 样本 数据 ， 不 同样 本 信息 中 包含 三 种 数据 : 评分 、 用 户 信息 和 电影 信息 。 


1 .数据 集 格式 说 明 
MovieLens 提 供 的 电影 评分 数据 分 为 三 个 文件 : 用 户 信息 、 电 影 信 息 及 评分 ， 下 面 介 绍 这 些 文件 格式 。 


(1) 用 户 信息 (users.dat) 


用 户 信息 分 为 5 个 字段 ， 格 式 如 下 : 








UserID :: Gender :: Age :: Occupation :: Zip-code 


用 户 编 号 :: 性 别 :: 年 龄 :: 职业 :: 邮编 





各 个 字段 的 含义 如 下 : 

. 用 户 编号 : 范围 为 1 一 6040。 

“性别: M 为 Male，E 为 Female。 

年龄: 不 同 的 数字 代表 不 同 的 年 龄 范围 ， 如 25 代 表 25 一 34 岁 范围 。 
只 业 : 职业 信息 ， 在 测试 数据 中 提供 了 21 种 职业 分 类 。 

: 邮编: 地 区 邮编 。 


使 用 的 users.dat 的 数据 样本 如 下 : 





1::F::1::10::48067 


23sMs D6 :L670072 





3 0 501L7 


4::M: :45: 3 :02460 





DM O09455 


Oi E00]l. 





TM ID 068l0 








8B:M: 325.75123311413 


(2) 电影 信息 (movies.dat) 


电影 数据 分 为 三 个 字段 ， 格 式 如 下 : 








MovieID :: Title :: Genres 


电影 编号 : : 电影 名 :: 电影 类 别 
其 中 各 个 字段 说 明 如 下 : 


. 电影 编号 : 1 一 3952。 
. 电影 名 : 由 IMDB 提 供电 影 名 称 ， 其 中 包括 电影 上 映 年 份 。 
" 电影 类 别 : 这 里 使 用 实际 分 类 名 非 编 号 ， 如 Action、Crime 等 。 


使 用 的 movies.dat 的 数据 样本 如 下 : 


1::Toy Story (1995)::Animation|Children's|Comedy 





2::Jumanji (1995)::Adventure|Children's|Fantasy 


3::Grumpier Old Men (1995)::Comedy|Romance 





4: :Waiting to Exhale (1995)::Comedy|Drama 











5::Father of the Bride Part (1995) : :Comedy 











6::Heat (1995)::Action|Crime|Thriller 





7::Sabrina (1995)::Comedy|Romance 


8::Tom and Huck (1995)::Adventure|Children's 


(3) 评分 文件 数据 说 明 (ratings.data) 


该 评分 数据 总 共 四 个 字段 ， 格 式 如 下 : 





UserID :: MovieID :: Rating :: Timestamp 


用 户 编号 : : 电影 编号 : : 评分 :: 评分 时 间 截 











各 个 字段 说 明 如 下 : 

" 用 户 编号 : 范围 为 1 一 6040。 

" 电影 编号 : 范围 为 1 ~3952。 

` 评分: 电影 评分 为 五 星 评分 ， 范 围 为 0~5。 
` 评分 时 间 惟 : 单位 为 秒 。 

其 中 每 个 用 户 至 少 有 20 个 电影 评分 

使 用 的 ratings.dat 的 数据 样本 如 下 : 


1::1193::5::978300760 
Lew66lLs e308302109 
1::914::3::978301968 


ls*34083:4:5978300275 





下 :23355325853978824291 














1312733239718202268 


1207 5031978302039 


le2804draDs 978300719 


2.Load 数 据 并 进行 处 理 ， 具 体 步骤 如 下 : 


1) Load 如 下 两 种 数据 到 内 存 : 


@ 装 载 样本 评分 数据 ， 将 其 中 最 后 一 列 时 间 戳 除 10 的 余数 作为 key，Rating 为 值 。 


@ 装 载 电影 目录 对 照 表 (电影 1D 一 电影 


2) 将 样本 评分 表 以 key 值 切 分 成 3 个 部 分 ， 分 别 用 于 训 


3) 训 





未 题 ) 。 





4) 用 最 佳 模型 预测 测试 集 的 评分 ， 计 算 和 实际 评分 之 间 的 均 方 根 误差 。 


5) 根据 用 户 评分 的 数据 ， 推 荐 前 10 部 


明确 上 述 步骤 之 后 ， 可 以 编程 实现 这 些 步 又 。 


感 兴趣 的 电影 


IAA 





















































练 不 同 参数 下 的 模型 ， 并 再 校 验 集中 验证 ， 获 取 最 佳 参数 下 的 模型 。 


需 史 除 用 户 已 经 评分 的 电影 


具体 实现 代码 如 下 : 


练 (60%， 并 加 入 用 户 评分 ) 、 


O 


校 验 (20%) ， 及 测试 (20%) 。 



































































































































import java.io.File 
import scala.io.Source 
import org.apache.1o09g4]. {Level, Logger} 
import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. 
import org.apache.spark.rdd. 
import org.apache.spark.mllib.recommendation. {ALS, Rating, MatrixFactorizationModel} 
object MovieLensALS { 
def main(args: Array[String]) { 
// 在 终端 过 滤 无 关 日 志 
Logger .getLogger ("org.apache.spark") .setLevel (Leve .WARN) 
Logger .getLogger ("org.eclipse.jetty.server") .setLevel (Level .OFF') 
if (args.length != 2) { 
Println("Usage: /path/to/spark/bin/spark-submit --driver-memory 2g --class week7.MovieLensALS " + "week7.jar movieLensHomeDir personalRatingsFile") 
sys.exit (1) 
} 
// 设置 参数 
val conf = new SparkConf () .setAppName ("MovieLensALS") .setMaster ("spark://[your master ip]:7077") 
val sc = new SparkContext (conf) 
// Loaqd 用 户 评分 ， loadRatings 函 数 在 后 面 给 出 了 实现 
val myRatings = loadRatings (args (1)) 
val myRatingsRDD = sc.parallelize (myRatings, 1) 
// 下 载 的 样本 数据 所 在 目录 
val movieLensHomeDir = args (0) 
// Loadq 样 本 评分 数据 ， 将 其 中 最 后 一 列 Timestamp 除 10 取 其 余数 为 kev，Rating 为 值 ， 
// 即 (IntyRating) 
val ratings sc.textFile (new File (movieLensHomeDir, "ratings.dat") .toString) .map { line => 
val fields = line.split("::") 
(fields (3) .toLong $ 10, Rating (fields (0) .toInt, fields(1) .toInt, fields (2) .toDouble)) 






































Load 





加 /人 
已 各 








目录 对 照 
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电影 ID-> 电 影 标 题 ) 























Va 


movies = sc.textrFile 
1 fields 








line.spli 

















lds (0) .toInt, 





fields( 





(new File (movieLensHomeDir, 


ed 


») 


1)) 





} .collect () .toMap 











() 


val numRatings = ratings.count () 

val numUsers = ratings.map( . 2.user) .distinct().count 

val numMovies = ratings.map( . 2.product) .distinct() .Count () 
printlin("Got " + numRatings + " ratings 





// 将 样本 评分 3 


val numPartitions 
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攻 以 key 值 切 分 成 3 个 部 分 ，60gs 用 于 
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| 练 (加 入 用 户 































































































val training = ratings.filter(x => x. 1 < 6) 
.values 加 
.union (myRatingsRDD) // 注 意 ratings 是 (Int,Rating)， 取 value 即 可 
.repartition (numPartitions) 
.Cache () 
val validation = ratings.filter(x => x. 1 >= 6 && x. 1 < 8) 
.Values 
.repartition (numPartitions) 
.Cache () 
val test = ratings.filter(x => x. 1 >= 8) .values.cache () 
val numTraining = training.count () 
val numValidation = validation.count () 
val numTest = test.count () 
printlin("Training: " + numIraining + ", validation: " + numValidation + ", test: " + numTest) 
// 下 面 开始 训练 不 同 参数 下 的 模型 ， 并 在 校 验 集中 验证 ， 获 取 最 佳 参 数 下 的 模型 
val ranks = List(8, 12) 
val lambdas = List(0.1, 10.0) 
val numIters = List(10, 20) 
Var bestModel: Option[MatrixFactorizationModel] = None 
var bestValidationRmse = Double.MaxValue 
var bestRank = 0 
Var bestLambda = -1.0 
Var bestNumIter = -1 
for (rank <- ranks; lambda <- lambdas; numIter <- numIiters) { 
val model = ALS.train(training, rank, numlIter, lambda) 
val validationRmse = computeRmse (model, validation, numValidation) 
println("RMSE (validation) = " + validationRmse + " for the model trained with rank = " + rank + ", lambda = " + lambda + ", and numIter = 
if (validationRmse < bestValidationRmse) { 
bestModel = Some (model) 
bestValidationRmse = validationRmse 
bestRank = rank 
bestLambda = lambda 
bestNumIiter = numlIter 








} 


// 使 用 上 面 训练 出 的 最 外 


val testRmse 








print 


// create a naive base] 
val meanRating = training.union (validation) .map ( 
1] baselineRmse = math.sqgr 


Va 


ln("The best mode] 














模型 预测 测试 集 的 评分 ， 
computeRmse (bestModel .get, test, numTest) 



































| was trained wi 





line and compare 


it with the bes 








t (test.map(x => (meanRating 











val improvement = (baselineRmse - test] 


printlin("The best model improves the baseline py " + "$1.2 





Rmse) / baselinel 





并 计 算 和 实际 评分 之 间 的 均 方 村 





), 








20g 用 于 校 验 ， 剩 下 20gs 用 于 测试 。! 


"movies.dat") .上 toString) .map { line => 


from "+ numUsers + " users on " + numMovies + " movies.") 


于 这 些 数 据 在 计算 过 程 中 要 多 次 用 到 ， 所 以 cache 到 内 存 



































th rank = " + bestRank + " 





Rmse * 100 














误差 
and lambda = " + bestLambda + ", and numIlter 
t model 
.rating) .mean 
-x.rating) * (meanRating - x.rating)) .mean) 


.format (improvement) + "%$.") 











-1 
F 





"+ bestNumIter + ", and its RMS] 


CC 





"+ numIter + ".") 


on the test set is 





// 推荐 前 10 部 最 感 兴 趣 的 电影 ， 需 吻 除 用 户 已 经 评分 的 电影 












































val myRatedMovieIds = myRatings.map( .product) .toSet 
val candidates = sc.parallelize (movies.keys.filter(!myRatedMovielIds.contains( )).toSeq) 
val recommendations = bestModel .get 


.predict (candidates.map((0, ))) 
.Ccollect () 
.SortBy(- .rating) 


.take (10) 








Var i=1 
printlin("Movies recommended for you:") 
recommendations.foreach { r => 














printlin("%$2d".format (i) + ": "+ movies(r.product)) 
i += 1 

} 

SC.Stop () 











} 

/xx 校 验 集 预 测 数 据 集 和 样本 数据 集 之 间 的 均 方 根 误差 **/ 

def computeRmse (model: MatrixFactorizationModel, data: RDD[Rating]l, n: Long): Double = { 
val predictions: RDD[Rating] = model.predict (data.map(x => (x.user, x.product))) 
val predictionsAndRatings = predictions.map(x => ((x.user, x.product), x.rating)) 












































.Join(data.map(x => ((x.user, x.product), x.rating))) 
.values 
math.sqrt (predictionsAndRatings.map(x => (x. 1 - x. 2) * (x. 1 -~ x. 2)).reduce( + ) /Dm) 





} 


/** 载 入 用 户 评 分 文件 **/ 
// 用 户 评分 文件 和 rating.dat 格式 相同 ， 可 以 从 rating.qdat 文 件 中 抽取 一 部 分 作为 用 户 评分 文件 
// 也 可 以 通过 https://databricks-training.s3.amazonaws.com/training-downloads .zip 链接 下 载 ,运行 python bin/rateMovies 生成 . 
def loadRatings (path: String): SeqlRating] = { 
val lines = Source.fromFile (path) .getLines () 
val ratings = lines.map { line => 
val fields = line.split("::") 
Rating (fields (0) .toInt, fields(1) .toInt, fields (2) .toDouble) 
} .filter( .rating > 0.0) 
if (ratings.isEmpty) { 
sys.error ("No ratings provided.") 
} else { 
ratings.toSeq 






































































































































} 


6.5 ”本 章 小 结 


本 章 讲解 BDAS 中 的 主要 模块 。 由 Spark SQL 开始 ， 介 绍 了 spark SQL 及 其 编程 模型 及 DataFrame; 接着 讲解 Spark 生 态 中 用 于 流 式 计算 的 模块 Spark Streaming。 在 实际 应 用 中 ，Spark Streaming 基 
于 Window 的 实时 处 理 速 度 比 Hadoop 上 的 Storm 略 有 逊色 ， 并 和 且 在 实际 流 处 理应 用 中 ，Spark Streaming 总 是 与 Flume 和 Kafka 结 合 使 用 ， 以 获得 健壮 的 流 式 处 理 架构 。 本 章 的 第 三 小 节 ， 讲 解 了 SparkR 的 
基本 概念 及 操作 。 最 后 针对 机 器 学 习 的 流行 ， 本 章 在 第 四 小 节 重 点 介绍 了 Spark MLlib 的 架构 及 编程 应 用 ， 还 介绍 了 机 器 学 习 的 基本 概念 及 基本 算法 。 本 章 内 容 是 本 书 中 最 庞杂 的 一 章 ， 希 望 读者 阅读 本 章 后 
自己 动手 实践 ， 只 有 掌握 这 些 生态 模块 ， 才 能 更 好 地 将 Spark 应 用 到 实际 业务 场景 


第 7 草 spark 调 优 


本 章 主要 介绍 Spark 的 性 能 调 优 。 由 于 Spark 基 于 “内 存 计算 ”的 特性 ，CPU、 网 络 带 宽 、 内 存 等 集群 资源 可 能 成 为 Spark 应 用 执行 的 瓶颈 。 通 常情 况 下 ， 如 果 数 据 需 要 完全 放 进 内 存 ， 网 络 带宽 就 会 成 
为 瓶颈 。 但 是 仍然 需要 对 程序 进行 优化 ， 例 如 采用 序列 化 的 方式 保存 RDD 数 据 (Resilient Distributed Datasets) ,以便 减 少 内 存 使 用 。Spark 的 优化 主要 包括 数据 序列 化 和 内 存 优化 ， 数 据 序列 化 不 但 能 
提高 网 络 性 能 ， 还 能 减少 内 存 使 用 。 本 章 最 后 还 介绍 了 Spark 调 优 的 常见 问题 。 


7.1 参数 配置 


N 


细心 的 读者 也 许 从 前 面 的 Spark 基 础 章节 可 以 发 现 ， 对 Spark 性 能 的 优化 ， 最 简单 、 直 接 的 方式 就 是 调整 参数 。 参 数 配置 可 以 在 Spark 的 配置 脚本 中 添加 ， 也 可 以 在 Spark 程 序 代码 中 添加 。 
1. 添 加 配置 到 spark-env.sh 中 


部 署 好 spark 之 后 ， 可 以 复制 spark-env.sh.template 为 spark-env.sh， 然 后 在 其 中 做 相应 的 修改 ， 部 分 格式 如 下 : 





# 指定 集群 naster 
export STANDALONE SPARK MASTER HOST= hostname 


# 如 果 想 启动 pyspark， 调 用 本 地 的 python 安 装 库 ， 则 需要 设置 这 一 项 
export PYSPARK PYTHON=/usr/1ib/anaconda2/bin/python 


# 根据 具体 情况 设 定 executor 资 源 
export SPARK EXECUTOR MEMORY=89g 


export SPARK WORKER CORES=8 




















































































































# 设 定 端 

export SPARK MASTER WEBUI PORT=18080 
export SPARK MASTER PORT=7077 
export SPARK WORKER PORT=7078 

export SPARK WORKER WEBUI PORT=18081 




















实际 上 ， 也 可 以 在 spark-defaults.sh 文 件 中 保持 默认 配置 。 


# 设 定 资源 





spark.executor.memory 89 
spark.driver.memory 29 
spark.yarn.am.memory 29 


# 设 定 spark history server 的 地 址 
spark.yarn.historyServer.address CH-2:18080 
spark.history.fs.logDirectory hdfs://CH-1:8020/user/spark/applicationHistory 


# 指定 log 的 目录 
spark.eventLog.dir hdfs://CH-1:8020/user/spark/applicationHistory 
spark.eventLog.enabled true 



































# 指定 master 
spark.master spark://CH-1:7077 


2. 动 态 载 入 属性 


为 了 避免 硬 编码 ， 也 可 以 采用 前 几 章 进 过 的 命令 行 传 入 参数 的 方法 ， 格 式 如 下 : 





val sc = new SparkContext (new SparkConf () ) 




















./bin/spark-submit --name "My app" --master Spark://CH-1:7077 --conf spark.eventLog.enabled=false --conf spark.executor.memory=8g http://www.hzcourse.com/resource/readBook?patr 


3. 在 代码 中 的 SparkConf 对 象 中 设 定 参数 


可 以 在 SparkConf 中 设 定好 属性 之 后 ， 再 生成 SparkContext 对 象 ， 将 包含 属性 的 SparkConf 对 象 传 入 。 范 例如 下 : 








val conf = new SparkConf () 
.SetMaster ("spark://CH-1:7077") 
.SetAppName ("HelloApp") 
.Set ("spark.executor.memory", "89g") 








val sc = new SparkContext (conf) 


上 述 3 种 参数 属性 传 入 方法 的 优先 级 顺序 为 3. 最 高 ，2. 次 之 ，1. 最 低 。Spark 将 这 几 种 方式 传 入 的 参数 进行 整合 ，Spark 应 用 最 终 的 资源 设 定 依 照 优 先 级 来 确定 。 如 果 要 检测 性 能 ， 也 可 以 通过 前 面 介绍 的 
Spark webUI、Driver 端 的 日 志 ，worker 文 件 夹 与 log 文 件 夹 下 的 日 志 等 检测 。 在 工具 方面 ， 可 以 选择 集群 监控 工具 ， 如 Ganglia 和 Ambaria， 对 于 有 些 问题 ， 可 以 使 用 VM 提 供 的 profiler 工 具 来 分 析 。 


7.2 调 优 技巧 


下 面 介 绍 一 些 性 能 调 优 的 常见 切入 点 ， 和 希望 对 读者 有 所 局 发。 


7.2.1 序列 化 优化 

序列 化 对 于 任何 分 布 式 程序 的 性 能 具有 很 大 的 影响 。 一 个 不 好 的 序列 化 方式 〈 如 序列 化 模式 的 速度 非常 慢 或 者 序列 化 结果 非常 大 ) 会 极 大 降低 计算 速度 。 在 很 多 情况 下 ， 这 是 开发 者 优化 Spark 应 用 的 
第 一 选择 。Spark 试 图 在 方便 和 性 能 之 间 获 取 平 衡 。Spark 提 供 了 两 个 序列 化 类 库 : 

1.Java 序 列 化 


在 默认 情况 下 ，Spark 采 用 Java 的 ObjectOutputStream 序 列 化 一 个 对 象 。 该 方式 适用 于 所 有 实现 了 java.io.Serializable 的 类 。 通 过 继承 java.io.Externalizable， 能 进一步 控制 序列 化 的 性 能 。Java 序 列 
化 非常 灵活 ， 但 是 速度 较 慢 ， 在 某 些 情况 下 序列 化 的 结果 也 比较 大 。 


2.Kryo 序 列 化 


Spark 也 能 使 用 Kryo (版 本 2) 序列 化 对 象 。Kryo 不 但 速度 极 快 ， 而 且 产 生 的 结果 更 为 紧凑 (通常 能 提高 10 倍 ) 。 但 Kryo 的 缺点 是 并 非 支 持 所 有 类 型 ， 为 了 获得 好 的 性 能 ， 开 发 者 需要 提前 注册 程序 中 
使 用 的 类 (class) 。 


开发 者 可 以 在 创建 SparkContext 之 前 ， 通 过 调用 System.setProperty (“spark.serializer”， “spark.KryoSerializer”) ， 将 序列 化 方式 切换 成 Kryo。 这 个 属性 设置 对 序列 化 器 做 了 配置 ， 该 序列 化 
器 不 仅 可 用 于 worker 节 点 之 间 数 据 的 shuffle， 也 可 以 用 于 将 RDD 序 列 化 至 硬盘 。Kryo 需 要 用 户 注册 后 才能 采用 这 种 序列 化 方式 ， 在 实际 应 用 中 ， 经 验 告诉 我 们 ， 对 于 任何 “网 络 密集 型 ” (network- 
intensive) 的 应 用 ， 都 建议 采用 该 方式 。 


对 在 Twitter chill 库 中 ，AllScalaRegistrar 包 括 的 常用 scala 核 心 类 ，Spark 自 动 包含 了 Kryo 序 列 化 器 。 


为 了 用 Kryo 注 册 自 己 的 类 ， 可 以 使 用 registerKryoClasses 方 法 。 格 式 如 下 : 




















val conf = new SparkConf () .setMaster (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16122/0EBPS/Text/...) .setAppName (http://www.hzcourse 
val sc = new SparkContext (conf) 




















在 Kryo 的 官方 文档 中 描述 了 很 多 关于 注册 的 高 级 选项 ， 如 添加 用 户 自 定义 的 序列 化 代码 等 。 
在 对 象 非 常 大 时 ， 还 需要 增加 属性 spark.kryoserializer.buffer mb 的 值 。 该 属性 的 默认 值 是 32， 但 是 该 属性 需要 足够 大 ， 以 便 能 够 容纳 需要 序列 化 的 最 大 对 象 。 


最 后 ， 如 果 不 注册 你 的 类 ，Kryo 仍 然 可 以 工作 ， 但 是 需要 为 每 一 个 对 象 保存 其 对 应 的 全 类 名 (full class name) ， 这 是 非常 浪费 的 。 


7.2.2 ”内 存 优化 


在 性 能 调 优 中 ， 内 存 优化 主要 关注 如 下 三 个 方面 : 

. 对 象 占 用 的 内 存 (所 有 的 数据 有 可 能 被 加 载 到 内 存 ) 。 

` 访问 对 象 的 消耗 。 

. 垃圾 回收 (garbage collection) 占用 的 内 存 开销 。 

在 通常 情况 下 ，Java 对 象 的 访问 速度 虽然 较 快 ， 但 其 占用 的 空间 通常 比 其 内 部 的 属性 数据 大 2 ~ 5 倍 ， 这 其 实 牺牲 了 以 空间 换 时 间 的 策略 。 具 体 而 言 ， 主 要 有 如 下 几 个 原因 : 


. 每 一 个 Java 对 象 都 包含 一 个 “对 象 头 部 ” (object header) ， 该 头 部 大 约 占 16 字 节 ， 包 含 了 指向 对 象 对 应 的 类 (class) 的 指针 等 信息 。 如 果 对 象 本 身 包含 的 数据 非常 少 ， 那 么 对 象 头 有 可 能 会 比 对 象 数据 
还 要 大 。 


“Java Stting 在 实际 的 字符 串 数 据 之 外 ， 还 需要 大 约 40 字 节 的 额外 开销 〈 因 为 Stting 将 字符 串 保 存在 一 个 Chat 数 组 ， 需 要 额外 保存 类 似 长 度 等 的 其 他 数据 ) ; 同时 ， 因 为 是 Unicode 编 码 ， 每 一 个 字符 需要 占 


用 2 字 节 。 所 以 ， 一 个 长 度 为 10 的 字符 串 需要 占用 60 字 节 。 


: 通用 的 集合 类 ， 如 HashMap、LinkedList 等 ， 都 采用 了 链表 数据 结构 ， 对 每 一 个 条 目 (entry) 都 进行 了 包装 (wrapper) 。 每 一 个 条 目 不 仅 包含 对 象 头 ， 还 包含 一 个 指向 下 一 条 目的 指针 (通常 为 8 字 


基本 类 型 (primitive type) 的 集合 通常 都 保存 为 对 应 的 类 ， 如 java.lang.Integet。 
下 面 分 几 个 步骤 来 进一步 讨论 如 何 估算 对 象 占用 的 内 存 空间 大 小 以 及 如 何 通 过 改变 数据 结构 或 者 采用 序列 化 方式 进行 优化 。 
1. 确 定 内 存 消耗 


计算 数据 集 所 需 内 存 大 小 的 最 好 方法 是 创建 一 个 RDD， 并 将 其 放 入 缓存 ， 然 后 观察 Spark history webUI 上 的 Storage 页 面 ,该 页 面 会 列 出 RDD 的 各 项 信息 ， 包 括 占用 的 内 存 大 小 。 如 果 要 估算 一 个 特殊 
对 象 的 内 存 消 耗 ， 则 可 以 使 用 SizeEstimator 类 的 estimate 方 法 ， 这 样 做 不 但 可 以 降低 不 同 数据 布局 的 内 存 消 耗 ， 还 可 以 决定 广播 变量 在 每 个 executor heap 上 所 占 的 内 存 空间 大 小 。 


2. 优 化 调整 数据 结构 

优化 内 存 占用 量 最 常见 的 办 法 是 尽量 避免 使 用 一 些 增 加 额外 开销 (overhead) 的 Java 特 性 ， 如 基于 指针 的 数据 结构 ， 以 对 对 象 进行 再 包装 等 。 具 体 而 言 ， 有 如 下 几 种 方式 : 

. 使 用 对 象 数组 以 及 原始 类 型 (primitive type) 的 数组 以 蔡 代 Java 或 者 Scala 集 合 类 (如 HashMap) 。fastutil 库 为 原始 数据 类 型 提供 了 非常 方便 的 集合 类 ， 同 时 这 些 集合 类 也 兼容 Java 标 准 类 库 。 
“ 尽量 避免 使 用 含有 指针 和 小 对 象 的 谱 套 数据 结构 。 

. 考虑 采用 数字 ID 或 者 枚 举 类 型 来 替代 Stting 类 型 的 Key。 


. 当 内 存 少 于 32GB 时 ， 可 将 JVM 参 数 设置 为 -XX: +UseCompressedOops 项 ， 以 便 将 8 字 节 指针 修改 成 4 字 节 。 于 此 同时 ， 在 Java7 或 者 更 高 版 本 ， 设 置 JVM 参 数 -XX: +UseComptessedSttings， 以 便 采 用 8bit 


来 编码 每 一 个 ASCII 字 符 。 开 发 者 在 实际 应 用 中 ， 可 以 将 这 些 选项 添加 到 spatk-env.sh 中 。 
3. 序 列 化 RDD 人 存储 


如 果 采 用 了 上 述 优化 方法 之 后 ， 对 象 还 是 大 到 不 能 有 效 存放 的 话 ， 那 么 还 有 一 个 减少 内 存 使 用 的 简单 方法 ， 即 序列 化 。 采 用 RDD 持 久 化 API 的 序列 化 storageLevel， 如 MEMORY _ ONLY SER。Spark 将 
RDD 的 每 一 部 分 都 保存 为 byte 数 组 。 序 列 化 带 来 的 唯一 缺点 是 会 降低 访问 速度 ， 因 为 需要 将 对 象 反 序列 化 。 如 果 需 要 采用 序列 化 的 方式 缓存 数据 ， 那 么 建议 采用 前 面 提 到 的 Kryo， 理 由 是 Kryo 序 列 化 结果 比 
Java 标 准 序列 化 更 小 。 


4. 优 化 GC (Garbage Collection) 


一 般 而 言 ， 如 果 只 需 进 行 一 次 RDD 读 取 ， 然 后 进行 操作 不 会 引发 GC 问题 。 但 是 如 果 需 要 不 断 地 “搅动 ”程序 保存 的 RDD 数 据 ，GC (Jjvm 垃 圾 回收 ) 就 可 能 成 为 问题 。 当 需要 回收 旧 对 象 ， 以 便 为 新 对 
象 腾 内 存 空间 时 ，JVM 需 要 跟踪 所 有 的 Java 对 象 ， 以 确定 哪些 对 象 是 不 再 需要 的 。 需 要 记 住 的 一 点 是 ， 内 存 回 收 的 代价 与 对 象 的 数量 正 相关 ; 因此 ， 使 用 对 象 数量 更 小 的 数据 结构 (如 使 用 int 数 组 ， 而 不 是 
LinkedList) 能 显著 降低 这 种 消耗 。 另 外 一 种 更 好 的 方法 是 采用 对 象 序列 化 ， 如 上 面 所 描述 的 一 样 ; 这 样 ，RDD 的 每 一 部 分 都 会 保存 为 唯一 一 个 对 象 (一 个 byte 数 组 ) 。 如 果 内 存 回收 存在 问题 ， 在 尝试 其 
他 方法 之 前 ， 首 先 尝 试 使 用 序列 化 缓存 (serialized caching) 。 


每 项 任务 (task) 的 工作 内 存 以 及 缓存 在 节点 的 RDD 之 间 会 相互 影响 ， 这 种 影响 也 会 带 来 内 存 回 收 问题 。 下 面 讨论 如 何 为 RDD 分 配 空间 以 便 降低 这 种 影响 。 
(1) 获取 内 存 回 收 的 信息 


优化 内 存 回收 的 第 一 步 是 获取 一 些 统计 信息 ， 包 括 内 存 回 收 的 频率 、 内 存 回收 耗费 的 时 间 等 。 为 了 获取 这 些 统计 信息 ， 可 以 把 参数 -verbose: gc-XX: +PrintGCDetails-XX: +PrintGCTimestamps 添 
加 到 | 环境 变量 SPARK_JAVA_OPTS 中 。 设 置 完成 后 ，Spark 作 业 运 行 时 ， 可 以 在 日 志 中 看 到 每 一 次 内 存 回收 的 信息 。 注 意 ， 这 些 日 志保 存在 集群 的 工作 节点 (Work node) ， 而 不 是 驱动 程序 (driver 


program) 。 
(2) 缓存 大 小 优化 


用 多 大 的 内 存 来 缓存 RDD 是 内 存 回 收 一 个 非常 重要 的 配置 参数 。 默 认 情 况 下 ，Spark 采 用 运行 内 存 (executor memory、spark.executor.memory 或 者 SPARK_MEM) 的 66% 来 进行 RDD 缓 存 。 这 表明 
在 任务 执行 期 间 ， 有 33% 的 内 存 可 以 用 来 创建 对 象 。 


如 果 任 务 运行 速度 变 慢 目 JVM 频 繁 进行 内 存 回收 ， 或 者 内 存 空间 不 足 ， 那 么 降低 缓存 大 小 设置 可 以 减少 内 存 消耗 。 为 了 将 缓存 大 小 修改 为 50%， 可 以 调用 方法 
System.setProperty (“spark.storage.memoryFraction”，“0.5”) 。 结 合 序 列 化 缓存 ， 使 用 较 小 缓存 足够 解决 内 存 回收 的 大 部 分 问题 。 如 果 读 者 有 兴趣 进一步 优化 java 内存 回收 ， 请 继续 阅读 下 文 。 


(3) 内 存 回收 优化 

为 了 进一步 优化 内 存 回收 ， 需 要 了 解 JVM 内 人 存 管 理 的 一 些 基 本 知识 。 

Java 堆 (heap) 空间 分 为 3 部 分 : 新 生 代 、 老 生 代 和 永久 代 。 新 生 代 用 于 保存 生命 周期 较 短 的 对 象 ; 老生 代用 于 保存 生命 周期 较 长 的 对 象 。 
新 生 代 进一步 划分 为 三 部 分 Eden、Survivor1、Survivor2。 


内 存 回收 过 程 可 以 描述 为 : 如 果 Eden 区 域 已 满 ， 则 在 Eden 执 行 minor GC 并 将 Eden 和 Survivor1 中 仍然 活跃 的 对 象 拷贝 到 Survivor2。 然 后 将 Survivor1 和 Survivor2 对 换 。 如 果 对 象 活跃 的 时 间 已 经 足够 
长 或 者 Survivor2 区 域 已 满 ， 那 么 会 将 对 象 拷贝 到 Old 区 域 。 最 终 ， 如 果 Old 区 域 消 耗 列 尽 ， 那 么 触发 full GC 的 执行 。 详 见 图 7-1。 


放 满 时 触发 Full GC 存放 Class 对 象 (不 会 被 gc) 
从 可 


Tenured Permanent 





‘ 


From 


[Survivorl| [Survivor2 | 





存放 新 生 对 象 ， 放 满 时 可 触发 天 
二 者 大 小 相等 ， 且 可 互 换 
图 7-1 内 存 回 收 过 程 


Spark 内 存 回收 优化 的 目标 是 确保 只 有 长 时 间 存 活 的 RDD 才 保存 到 老生 代 区 域 。 同 时 ， 新 生 代 区 域 足 够 大 ， 以 保存 生命 周期 比较 短 的 对 象 。 这 样 ， 在 任务 执行 期 间 可 以 避免 执行 full GC。 下 面 是 一 些 可 
能 有 用 的 执行 步骤 。 


1) 通过 收集 GC 信息 检查 内 存 回 收 是 不 是 过 于 频繁 。 如 果 在 任务 结束 之 前 执行 了 很 多 次 full GC， 那 么 说 明 任 务 执行 的 内 存 空间 不 足 。 


2) 在 打印 的 内 存 回收 信息 中 ， 如 果 老 生 代 接近 消耗 列 尽 ， 那 么 减少 用 于 缓存 的 内 存 空间 。 这 可 以 通过 设置 属性 spark.storage.memoryFraction 来 生效 。 减 少 缓存 对 象 ， 以 提高 执行 速度 是 非常 值得 
的 。 


3) 如 果 有 过 多 的 minor GC 而 不 是 full GC， 那 么 为 Eden 分 配 更 大 的 内 存 是 有 益 的 。 可 以 为 Eden 分 配 大 于 任务 执行 所 需 的 内 存 空 间 。 如 果 Eden 的 大 小 确定 为 E， 那 么 可 以 通过 -Xmn=4/3*E 来 设置 新 生 
代 的 大 小 (将 内 存 扩大 到 4/3 是 考虑 到 survivor 所 需 的 空间 ) 。 


例如 ， 如 果 任 务 从 HDFS 读 取 数 据 ， 那 么 任务 需要 的 内 存 空 间 可 以 从 读 取 的 block 数 量 估算 出 来 。 注 意 ， 解 压 后 的 blcok 通 常 为 解压 前 的 2 ~ 3 倍 。 所 以 ， 如 果 需 要 同时 执行 3 个 或 4 个 任务 ，block 的 大 小 为 
64MB， 可 以 估算 出 Eden 的 大 小 为 4x3x64MB。 


4) 监控 内 存 回收 的 频率 以 及 消耗 的 时 间 并 修改 相应 的 参数 设置 。 


经 验 表 明 有 效 的 内 存 回收 优化 取决 于 程序 和 内 存 大 小 。 在 实践 中 还 有 很 多 其 他 的 优化 选项 ， 总 体 而 言 ， 有 效 控制 内 存 回 收 的 频率 非常 有 助 于 降低 额外 开销 。 


7.2.3 ”数据 本 地 化 
数据 本 地 化 对 Spark job 有 重要 的 影响 。 如 果 数 据 和 操作 数据 的 代码 在 同一 个 位 置 ， 那 么 运算 会 更 快 。 但 当 数 据 和 代码 分 离 时 ， 它 们 需要 移 到 一 起 。 典 型 案例 是 将 序列 化 后 的 代码 从 一 个 地 方 发 送 到 另 一 
个 地 方 ， 会 比 移动 一 块 数据 更 快 ， 因 为 代码 会 比 数据 小 很 多 。spark 针 对 数据 本 地 化 的 一 般 原 则 建立 了 调度 机 制 。 
数据 本 地 化 是 指数 据 与 处 理 数据 的 代码 有 多 接近 。 基 于 数据 当前 位 置 ，Spark 有 一 些 本 地 化 的 层级 ， 目 的 是 加 快运 算 : 
: PROCESS_LOCAL 数 据 和 运行 代码 位 于 同一 JVM 实 例 中 ， 这 可 能 是 最 好 的 本 地 化 。 
. NODE_LOCAL 数 据 和 代码 在 同一 节点 上 ， 比 如 在 同一 节点 上 的 HDFS 中 ， 或 者 同一 节点 的 其 他 executot 中 。NODE_LOCAL 层 级 会 比 PROCESS_LOCAL 稍 慢 ， 原因 在 于 数据 会 在 不 同 进程 间 传 输 。 
` NO_PREF 数 据 可 以 从 任何 地 方 以 同等 速度 访问 ， 并 且 不 倾向 于 本 地 化 。 
" RACK_LOCAL 数 据 位 于 同一 机 架 。 数 据 位 于 同一 机 架 上 的 不 同 server 上 ， 因 此 需要 通过 网 络 传输 。 典 型 的 是 通过 一 个 单独 的 交换 机 。 
: ANY 数 据 不 位 于 同一 机 架 上 。 
spark 优 先 调度 位 于 最 佳 位 置 层 级 上 的 任务 。 但 是 在 有 些 情况 下 ， 这 是 不 可 行 的 。 当 空闲 executor 上 不 存在 未 被 处 理 的 数据 时 ，spark 转 向 更 低 的 存储 层级 。 通 常 有 两 种 选择 : 
@ 等 待 忙碌 的 CPU 闲 下 来 ， 然 后 启动 同一 server 上 的 数据 关联 的 任务 。 
@ 在 远离 数据 的 地 方 立即 启动 任务 ， 这 需要 移动 数据 。 


Spark 一 般 采 取 的 策略 是 等 待 忙 碌 的 CPU 闲 下 来 。 一 旦 等 待 时 间 超时 ， 它 会 将 远 处 的 数据 移动 给 闲置 的 CPU。 在 不 同 层级 间 回 滚 (fallback) 的 等 待 时 间 可 以 单独 配置 或 者 在 同一 参数 中 包含 。 请 参见 
Spark 文 档 spark.locality 的 部 分 。 如 果 任 务 很 长 并 且 本 地 化 比较 差 ， 那么 开发 者 应 该 增 大 这 些 设置 。 一 般 默认 的 配置 在 实际 中 用 起 来 也 不 错 。 


7.2.4 ”其 他 优化 考虑 


1. 并 行 度 


如 果 每 一 个 操作 的 并 行 度 较 低 的 话 ， 那 么 会 导致 集群 无 法 得 到 有 效 的 利用 。Spark 会 根据 每 一 个 文件 的 大 小 自动 设置 运行 该 文件 Map 任 务 的 个 数 (开发 者 也 可 以 通过 SparkContext 的 配置 参数 来 控 
制 ) ; 对 于 分 布 式 ”reduce” 任务 (如 group by key 或 者 reduce by key) ， 则 利用 最 大 RDD 的 分 区 数 。 开 发 者 可 以 通过 第 二 个 参数 传 入 并 行 度 (请 参见 文档 spark.PairRDDFunctions) 或 者 设置 系统 参数 
spark.default.parallelism 来 改变 默认 值 。 通 常 在 集群 中 建议 为 每 一 个 CPU 核 (core) 分 配 2 ~ 3 个 任务 较为 合适 。 


2.Reduce Task 的 内 存 使 用 


开发 者 有 时 会 碰 到 OutOfMemory 错 误 ， 这 非 RDD 不 能 加 载 到 内 存 引起 的 ， 而 是 因为 任务 执行 的 数据 集 过 大 ， 如 正在 执行 groupByKey 操 作 的 reduce 任 务 。Spark 的 shuffle 操 作 (sortByKey、 
groupByKey、reduceByKey、join 等 ) 为 了 完成 分 组 会 为 每 一 个 任务 创建 哈 希 表 ， 哈 希 表 有 可 能 非常 大 。 最 简单 的 修复 方法 是 增加 并 行 度 ， 这 样 ， 每 一 个 任务 的 输入 会 变 得 更 小 。Spark 能 够 非常 有 效 地 支 
持 短 时 间 任 务 (如 200ms) ， 因 为 它 会 对 所 有 的 任务 复 用 JVM ， 这 样 能 减 小 任务 启动 的 消耗 。 因 此 ， 开 发 者 可 以 放心 地 使 任务 的 并 行 度 远大 于 集群 的 CPU 核 数 。 


3 广播 “大 变量 " 


使 用 SparkContext 的 广播 功能 可 以 有 效 减 小 每 一 个 任务 的 大 小 以 及 在 集群 中 启动 作业 的 成 本 。 如 果 任务 会 使 用 driver 中 比较 大 的 对 象 (如 静态 查找 表 ) ， 那 么 可 以 考虑 将 其 变 成 可 广播 变量 。Spark 会 
在 master 打 印 每 一 个 任务 序列 化 后 的 大 小 ， 所 以 可 以 通过 它 来 检查 任务 是 否 过 于 庞大 。 一 般 而 言 ，size 大 于 20KB 的 任务 可 能 都 是 值得 优化 的 。 


7.3 ”实践 中 单 见 调 优 问 题 及 思考 


1) 问题 : Task 序 列 化 后 太 大 。 


解决 : 使 用 广播 变量 。 


2) 问题 : val rdd=data.filter (f1) .filter (f2) .reduceBy... 经 过 以 上 语句 会 有 很 多 空 任 务 或 者 小 任务 ， 此 时 如 何 解决 ? 
解决 : 使 用 coalesce 或 者 repartition 减 少 RDD 中 partition 的 数量 。 

思考 : coalesce 与 repartition 的 关系 是 什么 ， 有 什么 异同 ”请 读者 阅读 源码 。 

3) 问题 : 每 个 记录 的 开销 太 大 。 

rdd.map{x=>conn=getDBConn; conn.write (x.toString) ; conn.close} 

解决 : rdd.mapPartitions (records=>conn.getDBConn; for (item<-records) ) 

write (item.toString) ; conn.close) 

思考 : map 是 在 每 个 元 素 上 应 用 此 函数 ，mapPartition 是 在 一 个 partition 上 应 用 此 函数 。 

4) 问题 : 任务 执行 速度 倾斜。 

解决 : 

数据 倾 儿 《一 般 是 pattition key 取 的 不 好 ) : 考虑 其 他 的 并 行 处 理 方式 ， 中 间 可 以 加 入 一 步 aggregation。 

* Wotker 倾 斜 (在 茶 些 worketr 上 的 executor 执 行 缓慢 ) : 设置 spatk.speculation=true， 把 那些 持续 慢 的 node 去 掉 。 
思考 : 对 比 Hadoop MapReduce 的 speculation。 

5) 问题 : shuffle 磁 盘 IO 时 间 长 。 

解决 : 设置 组 磁盘 。spark.local.dir=/mn1/spark，/mnt2/spar，/mnt3/spark， 并 设置 磁盘 为 IO 速度 快 的 磁盘 。 
思考 : 增加 IO 可 以 加 快速 度 。 

6) 问题 : reducer 数 量 不 合适 。 

解决 : 需要 按照 实际 情况 调整 : 

. 大 多 的 reducer 会 造成 很 多 的 小 任务 ， 以 此 产生 很 多 启动 任务 的 开销 。 

` 太 少 的 reducet 会 使 任务 执行 慢 。 

思考 : reduce 的 任务 数 会 不 会 影响 到 内 存 ? 默认 reducer 数 量 是 多 少 ? 

7) 问题 : collect 输 出 大 量 结果 慢 。 

解决 : 直接 输出 到 分 布 式 文件 系统 。 

思考 : 请 读者 查阅 collect 源 码 看 看 会 发 现 什 么 。 

8) 问题 : 序列 化 Spark 默 认 使 用 JDK 自 带 的 ObjectOutputStream (优点 : 兼容 性 好 ; 缺点 : 体积 大 ) 。 
解决 : 使 用 Kryo serialization (优点 : 体积 小 ， 速 度 快 ) 。 


思考 : 如 何 用 Kryo 需 要 注册 自己 的 类 ? 


7.4 ”本章 小 结 


本 章 首先 介绍 了 Spark 调 优 的 几 个 重要 方面 ， 接 着 给 出 了 工业 实践 中 常见 的 一 些 问题 ， 以 及 解决 问题 的 常用 策略 ， 最 后 启发 读者 在 此 基础 上 进一步 思考 和 探索 。Spark 性 能 调 优 ， 最 重要 的 仍然 是 内 存 调 
优 及 序列 化 调 优 ， 这 是 两 个 重点 。 在 实际 开发 中 ， 使 用 Kryo 序 列 化 的 同时 ， 请 注意 以 数据 序列 化 的 方式 来 做 持久 化 ， 可 以 解决 最 常见 的 性 能 问题 。 


第 8 章 Spark 2.0.0 


Spark 2.0.0 于 2016 年 7 月 底 悄 然 发 布 ， 是 飞速 发 展 的 Spark 项 目的 重要 里 程 碑 。 对 于 Spark 2.0.0 重 要 变化 的 理解 ， 有 益 于 我 们 将 来 更 好 地 使 用 Spark。 本 章 主要 介绍 Spark 2.0.0 的 新 特性 ， 包 括 对 于 API 
的 修改 、SQL 的 改进 以 及 一 些 新 引入 的 功能 。 


Spark 2.0.0 是 Spark 2.x 产 品 线 的 第 一 个 发 布 版 本 。 这 个 版 本 主要 的 更 新 包括 API 的 使 用 、 对 于 SQL 2003 的 支持 ， 以 及 一 些 性 能 优化 。 


8.1 功能 变化 


与 绝 大 多 数 软件 的 版 本 升级 一 样 ，Spark 2.0.0 保 持 了 对 大 部 分 1.x 版 本 的 API 兼 容 ， 但 依然 有 一 些 老 的 API 或 者 功能 ， 将 被 移 除 或 者 不 再 建议 开发 者 继续 使 用 。 还 有 些 API， 需 要 开发 者 将 原 有 的 应 用 重新 
编译 或 者 修改 ， 才 能 继续 正常 使 用 。 


8.1.1 删除 的 功能 


在 Spark2.0.0 中 删除 了 一 些 原 有 的 功能 ， 具 体 如 下 : 
el 
“ 对 Hadoop 2.1 以 及 之 前 版 本 的 支持 。 
“ 可 配置 的 闭 包 序 列 化 器 。 
- HTTPBroadcast。 
" 基于 TTL 的 元 数据 清理 。 
“ org.apache.spatk.Logging 类 。 
“ SpatkContext.metticsSystem.。 
与 Tachyon 面 向 块 方式 的 集成 。 
Spatk 1.x 中 已 经 建议 不 再 使 用 的 《deprecated) API。 
.在 Python Dataframe 方 法 中 ， 那 些 直 接 返 回 RDD 的 计算 (如 map、flatMap、mapPattitions 等 ) 。 
` 不 太 常 用 的 streaming connector， 包 括 Twitter、Akka、MQTT、ZeroMQ。 
“ 基于 哈 希 的 Shuffle managet。 
“ 在 Standalone 模 式 下 ， 用 Mastet 进 行 history 管 理 。 
“ DataFtrame 不 再 是 一 个 class。 


“Spatk EC2 脚 本 被 移 走 。 


8.1.2 Spark 中 友 生 变化 的 行为 


除去 掉 一 些 原 有 的 功能 外 ，Spark 中 也 发 生 了 一 些 变化 ， 具 体 如 下 : 
. 在 默认 情况 下 ， 需 要 使 用 Scala 2.11 对 应 用 进行 重新 编译 (原来 是 2.10) 。 
“ 在 SQL 中 ， 浮 点 数 迭 代 被 解析 成 decimal 类 型 ， 而 不 是 double。 
. Ktyo 升 级 到 3.0 版 本 。 
.Java RDD 的 flatMap 和 和 mapPattitions 被 更 新 ， 需 要 返回 iterator 类 型 ， 而 不 是 Tterable。 


.Java RDD 中 的 countByKey 和 countAptroxDistinctByKey 方 法 ， 返 回 KK 到 java.laneg.Long 的 映射 ， 而 原来 这 2 个 方法 返回 的 是 到 java.lang.Object 的 映射 。 
ymRcey Pp ycy ] 8 8 ] 8 ] 


: 写 Parquet 文 件 时 ，summary 文 件 不 再 自动 生成 ， 需 要 设置 “parquet.enable.summary-metadata” 为 trtue， 才 能 把 这 个 特性 重新 打开 。 


“ 基于 DataFrame 的 API (spatk.ml) 现在 依赖 于 spatk.mllinalg 中 的 局 部 线性 算法 ， 而 不 再 依赖 于 spatk.mllib.linalg (SPARK-13944) 。 


8.1.3 ”不 再 建议 使 用 的 功能 


以 下 功能 在 2.0.0 版 本 中 不 再 建议 使 用 ， 在 将 来 的 2.x 版 本 中 有 可 能 会 被 删除 。 
Mesos 的 Fine-grained 模 式 。 
对 Java 7 的 支持 。 


* 对 Python 2.6 的 支持 。 


8.2 Core 以 及 Spark SQL 的 改变 


8.2.1 编程 AP| 


“ 将 DataFrame 和 Dataset 进 行 了 统一 : 在 Scala 及 Java 中 ，DataFtrame 只 是 DatasetRow] 的 一 个 别名 。 在 Python 及 R 中 ， 由 于 缺乏 类 型 安全 机 制 ，DataFtame 是 主要 的 编程 接口 。 
. SpatkSession: 替换 旧 的 SQLContext 和 HiveContext。 为 了 向 后 兼容 ， 原 有 的 SQLContext 和 HiveContext 仍 保留 。 

“ 为 SpatkSession 提 供 了 简化 版 的 配置 API。 

: 简单 且 性 能 更 高 的 accumulatot API。 


. 为 Dataset 中 的 类 型 聚合 (typed aggregation) 提供 了 一 个 新 的 、 改 进 版 的 Aggregator API。 


8.2 ” Core 以 及 Spark SQL 的 改变 


8.2.1 编程 AP 


:将 DataFrame 和 Dataset 进 行 了 统一 : 在 Scala 及 Java 中 ，DataFtrame 只 是 DatasetRow] 的 一 个 别名 。 在 Python 及 R 中 ， 由 于 缺乏 类 型 安全 机 制 ，DataFtame 是 主要 的 编程 接口 。 
. SpatkSession: 替换 旧 的 SQLContext 和 HiveContext。 为 了 向 后 兼容 ， 原 有 的 SQLContext 和 HiveContext 仍 保留 。 

“ 为 SpatkSession 提 供 了 简化 版 的 配置 API。 

: 简单 且 性 能 更 高 的 accumulator API。 


“ 为 Dataset 中 的 类 型 聚合 (typed aggregation) 提供 了 一 个 新 的 、 改 进 版 的 Aggtegator API。 


8.2.2 ”多 说 些 天 于 9parkSession 


1.Datasets 与 DataFrames 


Dataset 是 在 Spark1.6 (Spark 2.0.0 的 上 一 个 版 本 ) 中 引入 的 新 概念 ， 这 是 操作 结构 数据 的 高 级 API， 它 具备 RDD 的 强 类 型 检查 ， 可 以 直接 使 用 ambda 函 数 ， 同 时 利用 Spark 的 Catalyst 优 化 器 及 钨 丝 执 
行 引 擎 ， 使 得 Dataset 使 用 过 程 中 的 存储 及 计算 得 到 极 大 优化 。 


针对 SparkSQL， 在 较 早 版 本 中 ， 就 提供 了 DataFrame 的 数据 结构 。DataFrame 相 对 于 类 似 RDDUJavaelement type] 这 样 的 分 布 式 java 对 象 组 成 的 RDD 结 构 来 说 ， 增 添 了 数据 的 结构 信息 ， 即 
schema。 可 以 将 DataFrame 看 作 是 由 分 布 式 Row 对 象 组 成 的 集合 ，Row 中 为 Spark 执 行 引擎 提供 了 更 多 的 数据 类 型 等 相关 信息 ， 使 得 SparkSsQL 在 执行 时 ， 能 更 好 地 优化 执行 计划 ， 提 升 执行 效率 。 


在 Spark 2.0.0 中 ， 将 DataFrame 与 Dataset 的 实现 进行 了 合并 ，DataFrame 已 经 成 为 Dataset[Row] 的 类 型 别名 (就 是 说 ，DataFrame 是 Dataset 的 一 个 特例 ) 。 


Dataset 通 过 自 定义 Encoder 进 行 对 象 的 序列 化 、 反 序列 化 操作 (有 别 于 RDD 使 用 Java serialization 或 者 Kryo) 。Dataset 的 生成 方法 如 下 。 


case class Person (name: String, age: Long) 


// 为 case classes 产 生 Encoder 
val caseClassDSs = Seq(Person ("Andy", 32)) .toDSs() 
caseClassDsS. show () 


// +----+-—-+ 




















// 通过 importing spark.implicits. 为 绝 大 部 分 类 型 产生 Encoder 
val PrimitiveDSs = Sedq(1，2，3) .toDS () 
primitiveDS.map( + 1).collect() // Returns: Array(2, 3, 4) 








// 通过 调用 as [Person]， 将 DataFrame 转 换 为 Dataset。 在 如 下 方法 中 
// spark.read.json (path) 返 回 的 其 实 就 是 DataFrame 类 型 对 象 

// 这 里 的 spark 是 SparkSession 对 象 ， 在 后 面 提 到 

val path = "examples/src/main/resources/people.json" 

val peopleDS = spark.read.json (path) .as[Person] 

peopleDs. show () 



























































// Inull|Michael 
// 30 Andy 
// 19| Justin 

















DataFrame 和 DataSet 可 以 相互 转化 ， 调 用 df.as[ElementType] (上 面 代码 示例 中 可 见 ) 可 以 将 DataFrame 转 化 为 DataSet， 而 调用 ds.toDF () 可 以 将 Dataset 转 化 为 DataFrame。 
2. 基 于 Dataset 及 DataFrame API 编 程 的 主 入 口 


从 Spark 2.0.0 开 始 ， 引 入 SparkSession 作 为 Dataset 及 DataFrame API 编 程 的 入 口 ， 代 蔡 原 来 的 SQLContext 和 HiveContext， 使 得 在 使 用 Spark SQL 时 ， 用 户 不 再 需要 根据 不 同 的 场景 创建 不 同 的 


Context。 


创建 SparkSession 的 基本 方法 如 下 : 





import org.apache.spark.sql.SparkSession 


val spark = SparkSession 
.builder () 
.appName ("Spark SQL Example") 
.Config("spark.some.config.option", "some-value") 
.getOrCreate () 

















import spark.implicits. 





Spark 2.0.0 中 的 SparkSession 提 供 了 对 众多 Hive 功 能 的 支持 ， 包 括 HiveQL 查 询 、Hive UDF、 从 Hive 表 中 读 取 数据 。 


SparkSession 通 过 read.json、SQL 等 操作 读 取 数据 源 或 者 处 理 数据 之 后 ， 以 DataFrame 对 象 返 回 结 果 。 更 多 具体 的 操作 ， 可 以 参见 Spark 官 方 文档 。 


8.2.3 SQL 


spark 2.0.0 持 续 提升 SQL 性 能 ， 支 持 SQL 2003。 目 前 已 经 可 以 执行 所 有 的 99 TPC-DS 查 询 。Spark 2.0.0 对 于 SQL 部 分 的 主要 改进 如 下 : 
1) 支持 ANSI-SQL 以 及 Hive QL 的 内 置 SQL 解 析 器 。 
2) 支持 内 置 DDL 命 令 。 
3) 对 子 查询 的 支持 ， 包 括 : 
@@ 非 相关 标量 子 查询 (Uncorrelated Scalar Subqueries) 
@ 相 关 标 量子 查询 (Correlated Scalar Subqueries) 
GWHERE/HAVING 中 的 NOT IN 谓词 子 查询 
@WHERE/HAVING 中 的 IN 子 查询 
QWHERE/HAVING 中 的 (NOT) EXISTS 子 查询 
4) 视图 规范 化 的 支持 。 
在 Spark 2.0.0 中 ， 当 编译 没有 加 入 Hive 支 持 时 ，Spark SQL 也 将 支持 几乎 所 有 Hive 支 持 的 功能 ， 除 了 Hive 连 接 、Hive UDF 以 及 脚本 转换 。 
1. 新 功能 
“内置 的 CSV 数 据 源 支持 ， 该 功能 基于 Databricks 的 spatk-csv 实 现 。 
` 为 缓存 (caching) 以 及 运行 时 执行 提供 堆 外 内 存 管理 。 
.支持 Hive 风 格 的 分 桶 (bucketing) 。 
` 使 用 sketches 进 行 近似 的 统计 。 
2. 性 能 
"引入 了 名 为 “whole stage code genetation” 的 新 技术 ， 将 SQL 以 及 Dataframe 中 的 常见 操作 性 能 提升 了 大 约 2 一 10 信 。 
. 通过 vectotization 技 术 将 Parquet 文 件 的 扫描 吞吐 率 提升 了 一 大 截 。 
. 提升 了 ORC 性 能 。 
` 为 所 有 的 窗口 函数 提供 内 置 实现 ， 从 而 提升 窗口 操作 的 性 能 。 


` 为 内 置 数据 源 提供 自动 文件 合并 。 


8.3 MLlib 


基于 DataFrame 的 API 现 在 已 经 成 为 MLIib 使 用 的 主 接口 ， 过 去 基于 RDD 的 API 已 经 进入 维护 阶段 。 


8.3.1 新 功能 


Spark2.0.0 版 本 的 MLlib 中 添加 了 以 下 一 些 新 功能 。 
ML 持久 化 : 在 Scala、Java、Python 以 及 R 中 ， 基 于 DataFrame 的 API 提 供 了 对 存储 、 加 载 ML 模型 和 Pipeline 几 乎 完全 的 支持 (SPARK-6725，SPARK-11939，SPARK-14311) 。 
. 人 中 的 MLlib: SpatkR 目 前 支持 更 多 的 API， 包 括 建立 线性 模型 、 朴 素 贝 叶 斯 、Kk- 均 值 聚 类 以 及 sutvival regression。 


. Python: PySpatk 现 在 支持 更 多 的 机 器 学 习 算法 ， 包 括 LDA、 高 斯 混合 模型 、 广 义 线性 回归 等 。 


局 


. 基于 DataFtrame 的 API 添 加 的 算法 : 平分 多 -均值 聚 类 (Bisecting K-Means clust-er-ing) 、 高 斯 混合 模型 (Gaussian Mixture Model) 、MaxAbsScalet 属 性 转换 (Max-AbsScaler featute transfotmet) 。 


8.3.2 ”速度 /扩展 性 


DataFrame 中 的 Vectors 和 Matrices 使 用 了 更 多 、 更 有 效 的 序列 化 方法 ， 从 而 降低 了 调用 M LIib 算 法 时 的 开销 (SPARK-14850) 。 


8.4 SparkR 


sparkR 中 最 大 的 改进 来 自 于 用 户 自 定义 函数 (UDF) : dapply、gapply 以 及 lapply。 前 两 个 可 以 用 于 基于 partition 的 UDF， 如 partition 中 的 模型 训练 。 后 一 个 可 以 用 于 超 参 数 调 优 。 
除 此 之 外 ， 还 有 一 些 其 他 的 新 功能 。 

“ 加 大 R 中 机 器 学 习 算 法 的 覆盖 面 ， 包 括 杆 素 贝 叶 斯 、k- 均 值 聚 类 以 及 survival regression 

:广义 线性 模型 支持 更 多 的 families 及 link 函 数 。 


. 更 多 的 DataFrame 功 能 : 对 JDBC、CSV、SpatkSession 的 窗口 函数 、readetr、wtitet 的 支持 。 


8.5 Streaming 


Spark 2.0.0 中 引入 了 实验 性 的 结构 化 Streaming (Structed Streaming) ， 这 是 一 个 构建 在 Spark SQL 以 及 Catalyst optimizer 之 上 的 高 级 streaming APl。Structured Streaming 使 得 用 户 在 基于 流 式 
数据 源 编程 时 ， 可 以 像 使 用 静态 数据 源 一 样 使 用 相同 的 DataFrame/Dataset API， 并 使 用 Catalyst 优 化 器 自动 添加 查询 计划 。 


另外 ， 对 于 DStream API1， 最 大 的 改进 是 对 Kafka 0.10 的 支持 。 


8.5.1 初 识 结构 化 Streaming 


Spark 2.0.0 对 Spark Streaming 的 处 理 方式 进行 的 重大 改进 ， 是 引入 了 结构 化 Streaming (Structed Streaming) ， 将 流 式 处 理 与 静态 数据 处 理 的 流程 统一 到 SparkSession+DataFrame (Dataset) 
的 方式 上 (与 上 面 描述 的 Spark SQL 的 处 理 方式 无 比 相似 ) 。 


以 下 是 来 自 官 方 文 档 的 例子 ， 创 建 一 个 监听 localhost: 9999 的 服务 ， 对 输入 的 单词 进行 wordcount 计 算 。 
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// 创建 SparkSession 入 口 
val spark = SparkSession 
.builder 
.appName ("StructuredNetworkWordCount") 
.getOrCreate () 











import spark.implicits. 





// 调用 SparkSession.readStream 创 建 DataFrame， 接 收 来 自 ljocalhost:9999 的 消息 
val lines = spark.readStream 

.format ("socket") 

.option ("host", "localhost") 

.option ("port", 9999) 

.Load () 
































// 调用 as[String] 转 换 为 Dataset， 并 使 用 flatMap 与 split 分 割 出 单词 
val words = lines.as[String] .flatMap( .split(" ")) 


// 定义 单词 计数 逻辑 


val wordCounts = words.groupBy ("value") .count () 


// 启动 计算 逻辑 ， 并 通过 调用 writeStream 将 结果 以 complete 模 式 输出 
// 输出 目标 为 控制 台 

val query = wordCounts.writeStream 

.outputMode ("complete") 

.format ("console") 

.Start () 






























































query.awaitTermination () 





8.5.2 ”结构 化 Streaming 编 程 模型 


可 以 将 结构 化 streaming 理 解 为 以 流 式 方式 不 断 读 入 输入 流 ， 并 将 新 读 入 的 数据 添加 到 一 个 可 无 限 扩展 的 表 结 构 当中 ， 如 图 8-1 所 示 。 


es 无 边界 表 ， 在 输入 流 读 入 过 程 中 
不 断 被 添加 新 的 行 


图 8-1 ”结构 化 Streaming 输 入 流 读 入 方式 


由 于 对 流 式 输入 数据 进行 了 结构 化 抽象 ， 用 户 可 以 像 操作 结构 表 一 样 操作 输入 数据 。 上 节 中 的 wordcount 操 作 ， 甚 至 可 以 称 之 为 Word Count Query。 在 流 式 计算 当中 ， 每 个 时 间 片 读 入 新 增 数 据 ， 添 
加 到 输入 表 中 ， 经 过 计算 之 后 ， 再 将 结果 输出 到 一 个 结果 表 中 。 一 旦 结果 表 被 更 新 ， 更 新 的 结果 将 会 被 输出 。 以 wordcount 案 例 作 为 例子 的 图 形 描述 如 图 8-2 所 示 。 
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图 8-2 ”结构 化 Streaming 编 程 模型 


8.5.3 结果 输出 


对 于 结果 表 之 后 的 输出 ， 定 义 了 将 什么 输出 到 外 部 存储 当中 ， 可 以 为 其 定义 多 种 模式 : 
.Complete Mode: 将 整个 结果 表 全 部 输出 到 外 部 存储 。 


. Append Mode: 只 将 结果 表 中 新 添 的 结果 输出 到 外 部 存储 。 该 模式 只 适用 于 结果 表 已 经 产生 的 行 不 会 被 更 新 的 情况 (以 上 word count 不 适用 该 模式 ) 。 


* Update Mode: 只 将 结果 表 中 被 更 新 的 结果 输出 到 外 部 存储 〈 这 一 特性 在 Spatk 2.0 中 还 未 支持 ) 。 
结构 化 Streaming 的 输出 ， 通 过 调用 Dataset.writeStream () 产生 的 DataStreamWriter 对 象 进行 操作 。 通 过 调用 DataStreamWriter 的 方法 ， 可 以 定义 : 
“ 输出 目标 : 数据 格式 、 位 置 等 。 
. 输出 模式 : complete 或 者 append 等 。 
* 操作 的 名 字 (为 后 续 引 用 使 用 ) 。 
. 计算 (小 批 ) 触发 间隔 。 
* Checkpoint 位置。 
具体 内 容 可 以 参见 官方 文档 。 
在 以 上 定义 中 ， 输 出 目标 (output sink) 是 用 户 需要 较 好 掌握 的 。Spark 2.0.0 的 结构 化 Streaming 内 建 的 output sink 包 括 : 
File Sink: 输出 到 文件 ，Spatk 2.0.0 中 仅 支 持 以 Parquet 格 式 、Append 模 式 输出 。 
* Foreach Sink: 对 记录 进行 用 户 自 定 义 逻 辑 计 算 之 后 再 最 终 输 出 。 
Console Sink: 结果 输出 到 控制 台 ， 如 上 节 的 Word Count 代 码 示例 所 示 。 支 持 Complete 以 及 Append 模 式 。 
.Memory Sink: 结果 放 入 内 存 ， 在 小 数据 量 Debug 时 使 用 ， 支 持 Complete 以 及 Append 模 式 。 


以 下 是 使 用 Memory Sink 的 一 个 简单 例子 。 





case class DeviceData (device: String, type: String, signal: Double, time: DateTime) 





// 以 schema { device: string, type: string, signal: double, time: string } 载 入 df 
val df: DataFrame = http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16122/0EBPS/Text/... 





























// 定义 df aggregation 
val aggDF = df.groupBy ("device") .count () 


// 将 聚合 结果 放 入 内 存 表 

aggDF 
.writeStream 
.queryName ("aggregates") // 调用 queryName 为 内 存 表 定义 名 字 
.outputMode ("complete") 

.format ("memory") 

.Start () 


// 基于 内 存 表 的 查询 逻辑 定义 


SDark.Sdql ("select * from aggregates") .Show () 




































































8.6 依赖 、 打包 


Spark 2.0.0 的 操作 和 打包 流程 中 的 一 些 修改 值得 我 们 留意 。 
1) 在 生产 环境 部 署 时 ，Spark 2.0.0 不 再 需要 一 个 fat assembly jar。 


该 修改 来 自 于 SPARK-11157， 过 去 Spark 被 打包 成 几 个 巨大 的 jar 包 : Core、Streaming、SQL 等 。 此 修改 之 后 ，Spark 打 包 出 来 的 将 是 若干 Spark 自 身 实现 代码 打 成 的 jar 文 件 ， 以 及 在 lib 目 录 中 存放 的 
Spark 所 依赖 的 第 三 方 jar 包 。 如 此 一 来 ， 当 用 户 希 望 自己 更 换 lib 中 的 jar 包 时 ， 会 非常 方便 。 


2) 去 除了 对 Akka 的 依赖 ， 因 此 ， 用 户 可 以 自行 决定 基于 任意 版 本 的 Akka 编 写 程序 。 
Spark 对 Akka 的 依赖 曾 被 不 少 用 户 抱怨 ， 因 为 用 户 在 Spark 1.x 中 无 法 随意 定义 自己 所 需要 Akka 版 本 。 在 Spark 2.0.0 中 ，Spark 的 这 一 改动 无 疑 解决 了 这 些 用 户 的 痛苦 。 
3) 在 粗 粒度 Mesos 调 度 模式 中 支持 调度 多 个 Mesos executor。 


这 一 变化 对 于 单机 内 存 资源 丰富 (如 >30GB) 的 用 户 来 说 值得 注意 ， 修 改 来 自 SPARK-5095。 过 去 ,在 Mesos 粗 粒度 模式 下 ， 只 能 使 用 一 个 Mesos executor 启 动 单独 的 JVM ， 并 在 该 JVM 中 支持 多 个 
Spark Executor。 这 样 一 来 ， 当 单 台 物 理 机 器 上 实际 还 有 剩余 资源 时 ， 为 了 将 资源 充分 利用 ， 就 需要 在 启动 时 将 JVM 的 内 存 设置 到 更 大 的 值 ， 如 此 一 来 ，JVM 大 内 存 的 GC 问 题 会 影响 应 用 的 执行 。 


4) Kryo 版 本 升级 到 3.0。 


5) 默认 的 build 使 用 Scala 2.11， 不 再 是 原来 的 Scala 2.10。 请 使 用 与 平台 兼容 的 Scala 版 本 进行 应 用 编译 。 


8.7 ”本 童 小 结 


本 章 介绍 了 全 新 发 布 的 Spark 2.0.0 在 Spark Core、Spark SQL、Streaming、MLlib 模 块 引入 的 新 功能 以 及 一 些 使 用 方法 上 的 变化 。 对 于 变化 较 大 的 Spark SQL 中 的 Spark-Session 以 及 结构 化 
Streaming， 基 于 简单 代码 示例 进行 了 描述 ， 希 望 能 给 读者 更 多 的 指引 和 启示 。 


